[发明专利]一种文档排序方法、装置、电子设备及存储介质有效
申请号: | 202110601081.0 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113032549B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 曹梦娣;曹雷;尤旸 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/38;G06N20/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100082 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 排序 方法 装置 电子设备 存储 介质 | ||
1.一种文档排序方法,其特征在于,所述文档排序方法包括:
获取查询用户的查询文本和用户信息;
基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档;
通过以下步骤构建文档相关度模型:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;所述样本用户的关联特征包括静态类特征和行为类特征,所述历史查询文本的关联特征包括静态类特征和被行为类特征,所述样本文档的关联特征包括静态类特征、被行为类特征以及点击特征;其中,使用所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及交叉类别特征进行模型训练前,对所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征中的行为类特征和被行为类特征中的全部行为特征,采取时间衰减的方式进行处理;基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
2.根据权利要求1所述的文档排序方法,其特征在于,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
3.根据权利要求1所述的文档排序方法,其特征在于,所述分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110601081.0/1.html,转载请声明来源钻瓜专利网。