[发明专利]快速迭代的搜索引擎排序方法及系统在审
申请号: | 201611149705.5 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106777088A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 张洪岩;黄永军;王金明 | 申请(专利权)人: | 飞狐信息技术(天津)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津创智天诚知识产权代理事务所(普通合伙)12214 | 代理人: | 周庆路,田阳 |
地址: | 300000 天津市滨海新区天津经济开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 快速 搜索引擎 排序 方法 系统 | ||
技术领域
本发明涉及搜索排序技术领域,特别是涉及一种快速迭代的搜索引擎排序方法及系统。
背景技术
随着大数据技术的快速发展,搜索引擎系统中对特征的使用越来越深入,文本相关性、网页PageRank值和URL链接长度都是很好的排序特征。选取的特征越多,越有可能客观的反应用户的行为偏好。Google的搜索引擎排序系统更是使用了多达200余种特征,并且这些特征并不是简单的线性相加,而是通过复杂的神经网络来表征,这样不仅能充分利用文档的每个特征,还能利用特征与特征之间的关系。然而此时指望人工拟合出各特征的权重甚至复杂的神经网络模型已经变得不现实,排序学习技术变应运而生。
排序学习基于传统的机器学习技术,把文档是否相关和文档在各维度上的取值或神经网络的参数作为训练样本,与文档实际的相关性比较设定损失函数,再基于最优化技术如梯度下降等使损失函数最小。这样就能够在大量的数据中,根据每篇文档和查询的相关性以及每篇文档各个特征上的得分,计算出优化的搜索引擎排序公式。
算法的训练分为在线训练和离线训练两种。在线训练的全部过程由计算机程序完成,训练开始时读取用户点击记录生成训练集,然后用预先写好的训练算法训练出排序模型,更新线上排序算法,最后根据计算好的评价指标人工评价算法性能。这种训练方法的实现自动化程度更高、不易出故障,人工干预较少。但是训练过程中较为重要的交叉验证过程不得不省略,因为计算机很难根据交叉验证结果给出合适的解决方案。离线学习由人工控制学习的时间、参数等,可以在模型上线以前判断模型是否合适,并能根据交叉验证结果动态调整训练参数,保证上线算法的质量。但是离线学习算法每次算法模型的更新都需要中断服务,流程较为繁琐,使项目的迭代周期大幅延长。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种快速迭代的搜索引擎排序方法及系统。
为实现本发明的目的所采用的技术方案是:
一种快速迭代的搜索引擎排序方法,包括离线步骤和在线步骤,
所述的离线步骤包括,
训练出多个候选上线排序模型,
对各排序模型存储和比例分配,定时将排序模型及比例存入搜索服务器缓存数据库以备在线步骤读取;
所述的在线步骤包括,
接收用户请求并根据用户信息分配排序模型,
从索引中检索出相关文件,读取搜索服务器缓存数据库中的排序模型并计算排序然后返回给用户,
统计本次用户的搜索行为。
定时将排序模型及比例存入搜索服务器的key-value数据库。
所述的训练出多个候选上线排序模型包括以下子步骤,
收集用户点击记录,
根据用户点击记录还原用户搜索场景生成训练数据,
采用预定的不同算法和训练参数训练出多个候选上线排序模型。
所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。
所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。
一种快速迭代的搜索引擎排序系统,包括,
包括离线模块和在线模块,
所述的离线模块包括,
训练子模块,用以训练出多个候选上线排序模型,
模型管理子模块,用以对各排序模型存储和比例分配,并定时将排序模型及比例存入搜索服务器缓存数据库以备在线模块读取;
所述的在线步骤包括,
A/B测试子模块,用以接收用户请求并根据用户信息分配排序模型,
信息检索子模块,用以从索引中检索出相关文件,根据排序模型计算排序然后返回给用户,
统计子模块,用以统计本次用户的搜索行为。
定时将排序模型及比例存入搜索服务器的key-value数据库。
所述的训练子模块,
收集模块,用以收集用户点击记录,
信息处理模块;用以根据用户点击记录还原用户搜索场景并生成训练数据,
生成模块,用以采用预定的不同算法和训练参数训练出多个候选上线排序模型。
所述的在线步骤根据用户的cookie为用户分配排序模型以保证同一个用户分配固定的排序模型。
所述的搜索行为包括用户查询词、用户点击的文件和该文件在输出文件列表中的位置。
与现有技术相比,本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于飞狐信息技术(天津)有限公司,未经飞狐信息技术(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611149705.5/2.html,转载请声明来源钻瓜专利网。