[发明专利]一种模型训练的方法及装置有效
申请号: | 202110641108.9 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113344078B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 钟啸林;刘影 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/9538;G06F16/9532 |
代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 方志炜 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 装置 | ||
本说明书公开了一种模型训练的方法及装置,可以获取构建出的样本集,其中,针对该样本集中包含的每个训练样本,该训练样本包含搜索语句以及与该搜索语句对应的搜索结果,该搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,而后,业务平台若确定该训练样本中包含有第一类搜索结果,根据该训练样本的搜索语句与第一类搜索结果之间的相关程度,对第一类搜索结果进行标注,得到已标注的第一类搜索结果,并通过已标注的第一类搜索结果和/或已标注的第二类搜索结果,对排序模型进行训练,通过本方法训练排序模型,更准确地对各搜索结果进行排序。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型训练的方法及装置。
背景技术
随着计算机技术的不断发展,用户可以根据自身的实际需求,在业务平台上输入相应的搜索语句,业务平台将搜索出与该搜索语句相匹配的搜索结果,并展示给用户进行查看。
业务平台通常使用预先训练的排序模型,对搜索结果进行排序,排序模型的训练通常都是基于各用户对搜索结果的实际点击情况来完成的,即,通常情况下,用户执行过点击操作的搜索结果作为正样本,用户未执行过点击操作的搜索结果作为负样本,通过标注出的正负样本,对排序模型进行训练。
然而在实际应用中,用户可能会输入一些询问公共知识的搜索语句,这种搜索语句对应的搜索结果与搜索语句本身之间的相关性,往往是与用户在历史上是否会点击这些搜索结果无关的。
例如,用户搜索世界上最高山峰的时候,珠穆朗玛峰这一搜索结果无论用户是否点击,都是与这一搜索语句最相关的,但是,将珠穆朗玛峰这一搜索结果在排序页面中展示的时候,用户可能通过该排序页面已经知道了答案,所以,不会对珠穆朗玛峰这一搜索结果产生点击操作。在这种情况下,以用户对搜索结果的实际点击情况来训练得到的排序模型,往往并不能对搜索语句对应的搜索结果进行合理的排序。
发明内容
本说明书提供一种模型训练的方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型训练的方法,包括:
获取构建出的样本集,其中,针对所述样本集中包含的每个训练样本,该训练样本包含搜索语句以及与所述搜索语句对应的搜索结果,所述搜索结果包括第一类搜索结果、第二类搜索结果中的至少一种,所述第一类搜索结果包括从公共网络中搜索出的与该训练样本包含的搜索语句相关的网络搜索信息,所述第二类搜索结果包括在业务平台中搜索出的与该训练样本包含的搜索语句相匹配的业务对象;
若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果;
通过已标注的第一类搜索结果和/或已标注的所述第二类搜索结果,对预设的排序模型进行训练,所述第二类搜索结果是根据用户针对所述第二类搜索结果的实际操作情况进行标注的。
可选地,若该训练样本中包含有所述第一类搜索结果,根据该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度,对所述第一类搜索结果进行标注,得到已标注的所述第一类搜索结果,具体包括:
若确定该训练样本包含的搜索语句与所述第一类搜索结果之间的相关程度不低于设定相关度,确定所述第一类搜索结果为正样本,否则,确定所述第一类搜索结果为负样本;
根据用户针对所述第二类搜索结果的实际操作情况,标注所述第二类搜索结果,具体包括:
若根据用户针对所述第二类搜索结果的实际操作情况,确定用户对所述第二类搜索结果执行了点击操作,确定所述第二类搜索结果为正样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110641108.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于业务领域填充访问令牌信息的机制
- 下一篇:一种卡托组件和电子设备