[发明专利]文本相似度计算方法、装置、电子设备及存储介质在审
| 申请号: | 202011010599.9 | 申请日: | 2020-09-23 | 
| 公开(公告)号: | CN112269856A | 公开(公告)日: | 2021-01-26 | 
| 发明(设计)人: | 李宗祥 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 | 
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/216;G06F40/30 | 
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王宇杨 | 
| 地址: | 100032*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 文本 相似 计算方法 装置 电子设备 存储 介质 | ||
本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质;方法包括:根据目标文本得到目标文本的词嵌入向量;将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型,得到目标文本中的词的特征向量;根据目标文本中的词的特征向量计算目标文本的相似度。本发明实施例提供的文本相似度计算方法、装置、电子设备及存储介质,通过对现有的Transformer模型加以改进,在计算Attention时融入了访问热度,使得文本相似度计算结果更为准确。
技术领域
本发明涉及智能识别技术领域,尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。
背景技术
计算文本相似度是人工智能领域的热点问题。现有技术中的文本相似度计算方法主要通过深度学习的方法进行监督学习或无监督学习,完成语料训练,从而提取出文本的特征信息,最后计算文本特征之间的余弦距离来得到文本之间的相似度。
通过深度学习的方法提取文本的特征信息时具有多种实现方式,主要包括:基于CNN(Convolutional Neural Networks,卷积神经网络)提取特征的方法,基于RNN(Recurrent Neural Network,循环神经网络)提取特征的方法以及基于Transformer模型提取特征的方法。
Transformer模型是Google提出的一种基于自动编码器和Attention机制的NLP模型。Transformer模型通过Attention机制对词进行编解码,计算出文本序列中每个词对其他词的可替换率作为文本特征计算相似度。相较于RNN和CNN,Transformer模型不需要标注数据,是无监督的学习,而且其可以考虑整个文本序列所有词之间的关系,同时Transformer模型所使用的自动编码器机制可以很方便进行并行化计算,具有较高的性能。
Transformer模型已经得到了广泛的应用,取得了不错的效果,但是在某些场景下的应用中还存在一些问题,其缺点包括:
现有的Transformer模型提取出来的文本特征都是基于语料本身,忽略了语料在使用过程中产生的访问热度信息,导致计算出来的文本特征不全面,致使相似度计算不对。
发明内容
针对现有技术存在的问题,本发明实施例提供一种文本相似度计算方法、装置、电子设备及存储介质。
本发明第一方面实施例提供一种文本相似度计算方法,包括:
根据目标文本得到目标文本的词嵌入向量;
将目标文本的词嵌入向量输入预先训练的热度融合Transformer模型,得到目标文本中的词的特征向量;其中,词的特征向量能够同时反映词与词之间的文本相似性以及词与词之间的热度差异;
根据目标文本中的词的特征向量计算目标文本的相似度;其中,
热度融合Transformer模型是基于样本文本的词嵌入向量以及样本文本的词趋向度向量训练得到的;其中,热度融合Transformer模型是将Transformer模型中的自注意力层替换为融合注意力层,并在融合注意力层之间设置卷积层得到的模型;
融合注意力层用于根据词的自注意力与热度注意力计算词的注意力;词趋向度向量是根据词与词之间的文本相似性以及词与词之间的热度差异得到的用于描述词与词之间关联度的向量。
在一种可选的实施方式中,在根据目标文本中的词的特征向量计算目标文本的相似度的步骤之前,方法还包括:
根据目标文本中的词的热度概率,计算热词概率的估计值;
将热词概率的估计值作为阈值,根据阈值将目标文本中的词区分为热词与非热词;
将非热词的特征向量映射为预设值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011010599.9/2.html,转载请声明来源钻瓜专利网。





