[发明专利]网页打分模型的创建方法及装置有效
申请号: | 201410638360.4 | 申请日: | 2014-11-06 |
公开(公告)号: | CN104361077B | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 杨燕 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 路凯,胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 打分 模型 创建 方法 装置 | ||
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种网页打分模型的创建方法及装置。
背景技术
目前,搜索产品在接收到用户输入的查询词之后,首先会基于该查询词确定需返回的多个相关网页,然后对这些相关网页进行排序,最后将经过排序操作后的所有网页的链接信息组成一个列表,作为搜索结果呈现给用户。网页排序的准确与否,对搜索结果的准确率以及用户对搜索的满意度起着至关重要的作用。与查询词越相关的网页,其排名应越靠前。
目前,搜索产品多是预先创建一个网页打分模型,例如GBRank(Gradient Boosting Rank,梯度提升排序)模型,然后根据该模型对当前所确定的与某一查询词相关的所有网页进行打分,进而根据打分的高低对这些网页排序。其中,网页打分模型是采用机器学习的方法,对大量的训练样本集中各个网页的多维度下的特征进行学习而得到的打分规则。
但是,由于训练样本集具有一定的局限性,在对其学习过程中可能会导致对网页的一些特征学习不够充分,从而导致所创建的网页打分模型不太合理,使得排序结果的准确率大大降低。例如,传统的GBRank模型会出现对网页的省略特征学习不够充分,导致该特征在模型中的作用不足。通过该模型对某一查询词下的一组网页进行排序,极容易将省略特征值较小、相关性较差的网页排到了省略特征值较大、相关性较好的网页前面,这会严重影响到用户的搜索体验。
发明内容
本发明实施例提供一种网页打分模型的创建方法及装置,以能够提高网页排序结果的准确率,提升用户的搜索体验。
第一方面,本发明实施例提供了一种网页打分模型的创建方法,该方法包括:
获取网页训练样本集,其中所述网页训练样本集包括与预设的至少一个查询词中各个查询词下的多个样本网页的特征向量和标注打分;
根据所述网页训练样本集中各样本网页的标注打分以及预先确定的至少一个网页待调整特征,生成目标损失函数;
根据所生成的目标损失函数以及所述网页训练样本集中各样本网页的特征向量,创建网页打分模型。
第二方面,本发明实施例还提供了一种网页打分模型的创建装置,该装置包括:
网页训练样本获取单元,用于获取网页训练样本集,其中所述网页训练样本集包括与预设的至少一个查询词中各个查询词下的多个样本网页的特征向量和标注打分;
目标损失函数生成单元,用于根据所述网页训练样本集中各样本网页的标注打分以及预先确定的至少一个网页待调整特征,生成目标损失函数;
网页打分模型创建单元,用于根据所生成的目标损失函数以及所述网页训练样本集中各样本网页的特征向量,创建网页打分模型。
本发明实施例提供的技术方案,可预先确定多个网页待调整特征,然后同时结合所确定的多个网页待调整特征和网页训练样本集中各样本网页的标注打分,来生成目标损失函数,进而根据该目标损失函数和网页训练样本集中各样本网页的特征向量创建网页打分模型,从而能够调整网页待调整特征在网页打分模型中的作用,可以克服传统的网页打分模型会出现对网页一些特征的学习过程不够合理,进而导致这些特征在网页打分模型中的作用不足或作用过大的弊端。因此,利用本发明实施例中所创建的网页打分模型,对输入的任一查询词下的多个网页进行打分,然后根据该打分结果进行网页排序,能够提高网页排序结果的准确率,提升用户的搜索体验。
附图说明
图1A是本发明实施例一提供的一种网页打分模型的创建方法的流程示意图;
图1B是本发明实施例一提供的网页打分模型的创建方法所使用的网页排序的应用场景;
图2是本发明实施例二提供的一种网页打分模型的创建方法的流程示意图;
图3是本发明实施例三提供的一种网页打分模型的创建方法的流程示意图;
图4为本发明实施例四提供的一种网页打分模型的创建方法的流程示意图
图5所示为本发明实施例五提供的一种网页打分模型的创建装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410638360.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种档案自动编研方法
- 下一篇:一种数据去重过程中的并行分块方法与系统