[发明专利]查询处理方法、装置、服务器及存储介质有效
申请号: | 201810915123.6 | 申请日: | 2018-08-13 |
公开(公告)号: | CN109325108B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 冯欣伟;宋勋超;余淼;周环宇;康绍舜 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/957;G06F16/33 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 处理 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种查询处理方法、装置、服务器及存储介质,其中,所述方法包括:依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。本发明实施例通过在确定查询序列与段落之间相似度过程中引入了基于知识图谱确定的查询序列中实体向量表示,以及段落中实体向量表示,进而引入了客观世界的知识,具有更好的泛化能力和通用性。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种查询处理方法、装置、服务器及存储介质。
背景技术
随着互联网技术的发展,用户越来越倾向于通过搜索引擎或各种问答系统获取所需要的相关信息。而搜索引擎、问答系统的核心技术是排序,通过将排序靠前的相关信息优先展示给用户,以满足用户检索需求。
传统的排序是基于字面、后来引入了同义词、点击共现等技术,但是这些方法并没有真正理解语义,也没有很好的泛化能力。目前,随着机器学习、深度学习的发展,一些基于特征或表示的模型取得了不错的成绩,如LTR(Learning to Rank,线性模型)、DSSM(DeepStructured Semantic Models,深度结构化语言模型)。但诸如此类的模型本质上还是基于统计,需要庞大的训练数据,计算机并没有真正理解语义,并且通过此类模型进行检索排序的泛化能力和通用性有限。
发明内容
本发明实施例提供了一种查询处理方法、装置、服务器及存储介质,通过在确定查询序列与段落之间相似度时引入基于知识图谱确定的查询序列中实体向量表示,以及段落中实体向量表示,以达到提升查询处理技术的泛化能力和通用性的目的。
第一方面,本发明实施例提供了一种查询处理方法,包括:
依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;
依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;
依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。
可选的,确定查询序列与段落之间的相似度之后,还包括:
依据查询序列与各段落之间的相似度,对各段落进行排序。
第二方面,本发明实施例还提供了一种查询处理装置,包括:
第一向量表示模块,用于依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;
第二向量表示模块,用于依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;
相似度计算模块,用于依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的查询处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的查询处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810915123.6/2.html,转载请声明来源钻瓜专利网。