[发明专利]一种基于机器学习的搜索结果排序方法及系统有效
申请号: | 202011033035.7 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112100444B | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 马荣深;吴上波;韩亚;吴廷锋;闫立鑫;陈灵 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/738;G06N20/00 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 陈立志 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 搜索 结果 排序 方法 系统 | ||
本发明涉及数据排序技术领域,公开了一种基于机器学习的搜索结果排序方法及系统,用以对搜索结果进行更加精准排序,从而提高搜索系统的可信度与用户的使用体验。本发明通过对过去时间内的用户搜索日志进行数据集与特征的构建,在数据集构建时,查询条件与返回文档之间的相关度是根据用户信息与检索条件两者结合进行分组统计点击率,而后根据点击率的大小确定的。将最后得到的数据集进行迭代训练得到排序模型,通过该模型进行排序。本发明适用于搜索结果排序。
技术领域
本发明涉及数据排序技术领域,特别涉及一种基于机器学习的搜索结果排序方法及系统。
背景技术
随着人工智能与大数据的迅猛发展,计算机能够根据用户输入的检索条件,从海量的物品中选出与当前检索条件相关的物品展示给用户。然而,所检索出的物品并不是都与当前检索条件相关,我们要做的便是对所召回的这些物品根据用户的需求进行有效的排序。因此如何正确地对召回集中的物品进行排序是搜索领域非常关注的问题。
目前的排序方案大多是根据人工制定的策略进行排序,如当用户检索刘德华的电影,人工地制定策略对所检索出的影片的各个信息字段进行加权,而这些权重需要特定的专家人员根据业务的需求进行确定。这一方案的缺点很明显,就是非常耗费人力成本与时间成本,且每当业务需求变化时,便需要重新确定这些权重。近几年来随着业务的多元化,这类方法对复杂的业务场景的适应性较差,已经不再适应新的业务场景。因此需要一种高效且准确的排序方法来提升搜索系统的准确度。
发明内容
本发明要解决的技术问题是:提供一种基于机器学习的搜索结果排序方法及系统,用以对搜索结果进行更加精准排序,从而提高搜索系统的可信度与用户的使用体验。
为解决上述问题,本发明采用的技术方案是:
一种基于机器学习的搜索结果排序方法,其特征在于,包括以下步骤:
步骤一:获得要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
步骤二:对所述检索记录进行预处理,所述预处理包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
步骤三:根据所述检索记录、用户信息与影片信息生成排序特征,并排序特征附加到训练集与测试集上;
步骤四:对训练集进行编码;
步骤五:利用编码后的训练集训练模型,并使用得到的模型对测试集进行预测得到预测结果;
步骤六:利用所述预测结果对物品候选集的物品进行排序。
为了最大化的实现精准排序,具体的,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
进一步的,步骤三生成的排序特征可包括用户特征、影片特征、匹配类特征及上下文特征。
进一步的,步骤四对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储,以便在下次编码时能够保证映射关系的唯一性。
一种基于机器学习的搜索结果排序系统,包括:
数据获取模块,用于数据的获取,获取的数据包括:要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033035.7/2.html,转载请声明来源钻瓜专利网。