[发明专利]一种基于高斯核函数的长文本检索方法及系统在审
申请号: | 202111512377.1 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114328863A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 史树敏;朱乐;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/38;G06F40/30 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高斯核 函数 文本 检索 方法 系统 | ||
1.一种基于高斯核函数的长文本检索方法,其特征在于,包括以下步骤:
步骤1:对长文本进行分段;
指定一个长度N,作为长文本分段后各段落的最大长度;在长度N范围内,以标点为优先分段截止点,保证分段文本的语义完整性;
步骤2:使用预训练语言模型,对用户查询和候选段落进行评分;
将用户检索内容与候选段落进行级联后,进行预训练,并将其输出的句向量[CLS]作为文本特征交互向量;然后,利用多层感知机MLP判断用户查询与候选段落的语义相似度,作为伪标签;
步骤3:使用高斯核函数,对伪标签进行映射;
通过预先设计的不同均值和相同方差的高斯核,将伪标签标量映射为多维得分向量;然后,将不同段落对应的向量级联在一起,构成得分矩阵;
步骤4:使用线性层,判断用户点击相关性;
将得分矩阵经过池化层后传入线性层,利用MLP判断在不同等级下长文本各段落对于最终用户点击相关性的贡献。
2.一种基于高斯核函数的长文本检索系统,其特征在于,包括伪标签计算模块、高斯核映射模块和输出模块;
其中,伪标签计算模块负责对长文档进行分段,并将得到的各个文本段落与用户检索内容级联后输入预训练语言模型中,得到文本特征交互向量;同时,将文本特征交互向量作为线性层的输入,将输出的用户检索内容与长文本各段落相关性作为伪标签;
高斯核映射模块负责将伪标签通过不同高斯核函数,由标量映射为得分向量;
输出模块用于将属于同一长文本的不同段落得分向量级联为得分矩阵,将得分矩阵平均池化后放入线性层,判断并整合用户检索内容在不同高斯核函数下与长文本的相关性;
上述模块之间的连接关系为:
伪标签计算模块的输出端与高斯核映射模块的输入端相连;高斯核映射模块的输出端与输出模块的输入端相连。
3.如权利要求2所述的一种基于高斯核函数的长文本检索系统,其特征在于:
首先,在伪标签计算模块中对长文本进行分段;先对分段截止点按优先度分级,其中,标点符号优先级高于指定最大段落长度,然后,将分段所得段落分别与用户检索内容级联,并输入至预训练语言模型中,得到文本特征交互向量,最后,将所述文本特征交互向量放入线性层中,输出用户检索内容与长文本各段落的相关性,作为伪标签;
在伪标签计算模块中,预训练语言模型得到文本特征交互向量Vi,如式1所示:
Vi=BERT(q,pj) (1)
其中,i的取值范围为1、2、3、…、n,n指长文本可划分段落数目的最大值;q为用户检索内容,pj为长文本的第j个段落;
所述线性层指全连接神经网络,将文本特征交互向量映射为相关性,如式2所示:
R=W*Vi+b (2)
其中,R表示模型输出的相关性得分,W、b为模型参数,能够在模型训练过程中通过反向传播求解;Vi代表第i个段落与用户检索内容的文本特征交互向量;
在高斯核映射模块中,首先初始化不同高斯核的均值和方差,其中,各个高斯核均值不同但方差系统;然后,将伪标签计算模块输出的伪标签放入不同高斯核进行映射,将所得结果级联在一起,构成得分向量;所述高斯核函数映射如式3所示:
K(Ri)=exp(-(Ri-μk)/2σk2) (3)
其中,K(Ri)表示,Ri为用户检索内容q与第i个段落的伪标签,μk、σk分别表示第k个高斯核的均值和方差,exp为指数函数;
在输出模块中,首先将长文本不同段落对应得分向量级联在一起,得到得分矩阵;将得分矩阵平均池化后,输入至线性层,输出最终的用户检索内容与长文本相关性打分;最后,利用MLP判断在不同等级下长文本各段落对于最终用户点击相关性的贡献。
4.如权利要求2所述的一种基于高斯核函数的长文本检索系统,其特征在于,预训练语言模型为BERT模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111512377.1/1.html,转载请声明来源钻瓜专利网。