近日,搜狗搜索在由微软亚洲研究院和微软新闻产品团队联合举办的“MIND新闻推荐比赛”中技压群雄,击败来自加拿大、法国、韩国等全球各地的技术团队,荣获国际比赛第一名。
众所周知,推荐技术在新闻资讯(今日头条),短视频(抖音,快手),商品推荐(淘宝)等领域取得了巨大的成功,得到了工业界和学术界的广泛关注。与产品推荐、电影推荐或是餐厅推荐领域通常有一些公认的基准数据集不同,在新闻推荐领域,高质量的基准数据集比较匮乏,一定程度阻碍和制约了这一领域的深入研究。
为此,微软亚洲研究院联合微软新闻产品团队在ACL 2020上发布了规模最大的英文新闻推荐数据集MIND,并举办了 MIND 新闻推荐比赛。此次的比赛正是基于MIND新闻推荐数据集展开,在全球范围内征集最优秀的个性化新闻推荐解决方案,更好地推动新闻推荐领域的技术发展,以改善用户的新闻阅读体验。
而作为本次国际比赛的冠军队伍,搜狗搜索在本次竞赛中再次彰显出了专业的技术实力。凭借着自身在搜索领域和推荐算法方面多年的技术深耕和积累,搜狗搜索在本次比赛中采用了多角度信息综合建模的方案,单一模型通过融合多个降采样数据集取得较好效果。搜狗搜索提供的解决方案各项指标数据均领先,最终在本次国际竞赛中夺冠。
具体而言,在数据处理方面,针对正负样本不平衡,正样本率只有4%的情况,搜狗搜索做了1/5负样本降采样,并由此构建了5份不同数据集(负样本不同),有效节约了单模型训练时间,并且单模型效果和使用全量数据相比并没有明显效果衰减。除此之外,在文本建模方面,利用BERT的BPR分词器,采用文档内部词汇Attention,文档间利用要预测的目标新闻进行Attention综合建模。最后,通过DNN+DIN注意力机制+DLRM(特征交叉)的结合进行多角度特征融合,包括用户ID、文档ID、类别、实体、标题、摘要和正文特征等,对多角度信息进行有效融合,使得新闻推荐做到更加精准和个性化。更值得一提的是,搜狗搜索的这些领先技术目前已在包括搜狗搜索APP、搜狗手机浏览器等多款产品中落地应用。
作为连接人、服务,信息甚至是知识之间的桥梁,搜索技术和推荐技术应用场景虽有差异,但是背后的技术有很大的关联。搜狗搜索作为国内领先的搜索引擎,在推荐技术和搜索技术有长足的积累和领先优势,才使得搜狗搜索能在与世界各地的技术团队竞赛较量中脱颖而出,一举夺冠。
电科技(www.diankeji.com)是一家专注于全球TMT行业的领先资讯媒体。
作为今日头条青云计划、百家号百+计划获得者,2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者,曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。
投稿、商务合作请联络微信公众号
声明:本站原创文章文字版权归电科技所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表电科技立场,图文版权归原作者所有。如有侵权,请联系我们删除。