[发明专利]一种基于高斯核函数的长文本检索方法及系统在审
申请号: | 202111512377.1 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114328863A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 史树敏;朱乐;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/38;G06F40/30 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高斯核 函数 文本 检索 方法 系统 | ||
本发明涉及一种基于高斯核函数的长文本检索方法及系统,属于信息检索技术领域。本方法利用预训练语言模型的语义建模能力计算长文本各段落与用户检索内容的语义相似度,作为用户点击相关性的伪标签,有效缓解了缺乏段落级别标注数据的问题。通过不同的高斯核函数,将伪标签映射为不同维度的相关性得分。利用线性层聚合长文本各段落得分来输出用户检索内容对于长文本整体的相关性得分,能够让不同语义相似度等级的段落为用户点击相关与否做出贡献,增强了语义相似度与用户点击相关性的关联程度,提升了长文本检索模型的准确率。
技术领域
本发明涉及一种长文本检索方法及系统,具体涉及一种基于高斯核函数的长文本检索方法及系统,属于信息检索技术领域。
背景技术
长文本检索是信息检索领域的一个基本任务,其特点在于:待检索的文档平均长度较长,单篇文档中可能包含多个话题。传统的检索模型很难定位长文本中与用户点击意图相关的话题。
近年来,预训练语言模型在信息检索领域表现突出。其强大的上下文语义建模能力,使检索模型能够更好地计算用户检索内容与候选文档间的语义相似度,从而提高了模型判断两者相关与否的准确率。但是,在长文本检索任务上,受限于输入长度,预训练语言模型无法计算用户检索内容与长文本整体的语义相似度。
目前,现有技术主要是选择对长文本进行分段,以段落为单位与用户检索内容相级联作为检索模型的输入。但是,在现有公开数据集中,模型训练阶段仍然缺乏段落和用户检索的相关性标签。同时,由于语义相似度和用户点击相关性不完全等价,用户也可能点击相似度较低的候选文档。
综上所述,如何在无需额外标注数据情况下寻找段落级别的相关性标签,以及如何发现语义相似度与用户点击相关性的桥梁,成为长文本检索面临的一个亟待解决的技术难题。
发明内容
本发明的目的是为了解决长文本检索面临的如何在无需额外标注数据情况下寻找段落级别的相关性标签,以及如何发现语义相似度与用户点击相关性的桥梁的技术问题,创造性地提出一种基于高斯核函数的长文本检索方法及系统。
本方法的创新点在于:利用预训练语言模型的语义建模能力计算长文本各段落与用户检索内容的语义相似度,作为用户点击相关性的伪标签。通过不同的高斯核函数,将伪标签映射为不同维度的相关性得分。利用线性层聚合长文本各段落得分来输出用户检索内容对于长文本整体的相关性得分。
有益效果
本发明,对比现有技术,具有如下优点:
1.本发明利用预训练语言模型的语义建模能力计算段落与用户检索内容的语义相似度作为伪标签,有效缓解了缺乏段落级别标注数据的问题。
2.本发明利用高斯核函数将伪标签标量映射为多维向量,能够让不同语义相似度等级的段落为用户点击相关与否做出贡献,增强了语义相似度与用户点击相关性的关联程度,提升了长文本检索模型的准确率。
附图说明
图1为本发明方法的流程图。
图2为本发明系统的结构组成示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
一种基于高斯核函数的长文本检索方法,如图1所示,包括以下步骤:
步骤1:对长文本进行分段。
具体地,指定一个长度N,作为长文本分段后各段落的最大长度。在长度N范围内,以标点为优先分段截止点,保证分段文本的语义完整性。
步骤2:使用预训练语言模型,对用户查询和候选段落进行评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512377.1/2.html,转载请声明来源钻瓜专利网。