[发明专利]一种文档排序方法、装置、电子设备及存储介质有效
申请号: | 202110601081.0 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113032549B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 曹梦娣;曹雷;尤旸 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/38;G06N20/00 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100082 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 排序 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种文档排序方法、装置、电子设备及存储介质,获取查询用户的查询文本和用户信息;获取与查询文本相匹配的多个候选文档;分别从用户信息、查询文本以及多个候选文档中,确定出查询用户的关联特征、查询文本的关联特征、每个候选文档的关联特征、以及查询用户、查询文本以及每个候选文档之间的交叉类别特征,并输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;按照确定出的多个相关度得分,确定多个候选文档的排序结果,通过查询用户的客户端按照排序结果显示多个候选文档。这样,本申请利用用户特征、查询特征、文档特征以及三者的交叉特征进行文档排序,可以更符合企业用户的搜索需求。
技术领域
本申请涉及搜索引擎技术领域,尤其是涉及一种文档排序方法、装置、电子设备及存储介质。
背景技术
排序主要用于搜索引擎、推荐系统等领域。在互联网信息爆炸的背景下,越来越多的用户都会通过搜索获取自己想要的信息。搜索排序是指在一次会话中,用户在交互界面输入需要查询的query,系统给返回排好序的列表的过程。
现有的面向互联网用户的搜索引擎,在进行搜索文档排序时,是基于用户输入的关键字与搜索文档的文本相似度进行排序。但是按照这种排序方式排序后的搜索文档,可能将企业用户需要查看的文档排在末位,不能很好的满足企业用户的搜索需求。因此,在企业员工进行文档搜索时,如何将企业员工所需要的文档优先进行展示是亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种文档排序方法、装置、电子设备及存储介质,在对企业员工搜索文档进行排序时,利用了用户特征、查询特征、文档特征以及三者的交叉特征进行排序,从而使排序结果更加贴近企业用户的搜索意图,进而提高用户的使用体验。
本申请实施例提供了一种文档排序方法,所述文档排序方法包括:
获取查询用户的查询文本和用户信息;
基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
进一步的,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
进一步的,通过以下步骤构建文档相关度模型:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110601081.0/2.html,转载请声明来源钻瓜专利网。