[发明专利]一种文本语义相似度计算方法在审
| 申请号: | 202110654980.7 | 申请日: | 2021-06-11 |
| 公开(公告)号: | CN113535914A | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 许晓伟;张善平;王晓东;曹媛 | 申请(专利权)人: | 中国海洋大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30 |
| 代理公司: | 青岛联智专利商标事务所有限公司 37101 | 代理人: | 王笑 |
| 地址: | 266100 山东省青*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 语义 相似 计算方法 | ||
本发明公开了一种文本语义相似度计算法方法,包括:将文本转化为向量矩阵,利用Siamese BiLSTM网络并结合Co‑Attention机制,得到包含文本交互信息的全局特征矩阵,利用CapsNet网络提取文本的局部特征,并使用SENet网络自动校准每个局部特征的重要程度,得到文本的局部特征矩阵;将全局特征矩阵和局部特征矩阵融合后再一次使用BiLSTM网络提取上下文信息,得到两个文本的相似度矩阵,最后通过融合、池化、全连接层判断文本的语义相似度,充分提取文本的有效特征信息;因为提取到了待匹配文本的交互信息,同时保留了文本的有价值信息,提高了文本语义相似度计算的准确性。
技术领域
本发明属于自然语言处理技术领域,具体地说,是涉及一种基于特征自适应校准和Co-attention机制的文本语义相似度计算方法。
背景技术
随着互联网技术的快速为了使计算机能够更好的理解人类的意图,从海量的文本信息中返回给人类需要的信息,自然语言处理成为研究的热门领域。发展和社交网络的普遍应用,微博、影评、新闻等文本信息呈现爆发式增长。
文本语义相似度计算是自然语言处理领域中的基础性任务,在信息检索、文本分类、问答系统等方面发挥着不可替代的作用,因此,进行文本相似度计算的研究具有十分重要的意义。
近几年的文本语义相似度的研究工作可以分为三类:一是基于关键词和字符串匹配的传统方法;Kondrak提出N-Gram模型来计算文本的相似度,通过计算两个文本中公共N元组与总N元组数量的比值来表征文本相似度;Niwattanakul等提出Jaccard系数来衡量两个文本之间的相似度,没有关注集合元素之间的差异性;基于关键词的方法只关注了待匹配文本的词汇层面的相似度,没有考虑文本的语义信息,具有很大的局限性。二是基于向量空间模型的计算方法;Salton等首次提出向量空间模型(VSM),VSM基于词频统计将文本映射成向量;Landauer等基于VSM模型提出了LSA模型,通过奇异值分解(SVD)把文本从单词向量空间映射到了语义向量空间,使向量具有一定的语义信息;基于向量空间的计算方法通常使用欧式距离、余弦距离、曼哈顿距离等来表征文本的相似度,较好的补充了传统的基于词汇匹配方法的不足;在这类方法中文本被表示为高维、稀疏向量,不利于相似度的计算;假设词与词之间是相互独立的,忽略一词多义、近义词和同义词现象,因此这种假设很难满足实际情况;忽视了文本中词与词之间的上下文联系,缺乏足够的语义信息。三是基于深度学习的计算方法;Mikolov等提出了word2vec模型,对比one-hot模型,word2vec模型利用词的上下文信息训练出低维、稠密的词向量,语义信息更加丰富;Yin等对句子对进行建模,提出了三种将注意力机制与CNN融合的方案,并在AS、PI等任务上进行了验证;Kusner等人依托词嵌入研究的发展,提出词移动距离来度量两个文本之间的相似度;基于深度学习的方法通过神经网络提取文本特征以判断文本的相似度,在一定程度上包含了语义信息,但是缺乏句子间的对照等文本特征。
上述,传统的基于统计的文本相似度计算方法具有一定缺陷:文本被表示为高维、稀疏向量,不利于相似度的计算;假设词与词之间是相互独立的,忽略一词多义、近义词和同义词现象,因此这种假设很难满足实际情况;忽视文本中词与词之间的上下文联系,缺乏语义信息。使用预训练语言模型并结合神经网络的方法也存在着一些不足:卷积神经网络关注文本的局部信息,通过向量矩阵提取文本的局部特征,但是缺乏上下文的交互信息,并且卷积和池化过程会造成较多有效特征的丢失;循环神经网络虽然可以提取上下文的交互信息,但是对于远距离的依赖关系,缺乏提取文本特征的能力。
发明内容
本发明的目的在于提供一种文本语义相似度计算方法,以弥补现有技术中的不足,使用了Co-Attention机制提取到了待匹配文本的交互信息,同时使用SECapsNet网络充分保留了文本的有价值信息,充分提取到文本的有效特征信息,提高了短文本语义相似度计算的准确性。
本发明采用以下技术方案予以实现:
提出一种文本语义相似度计算方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110654980.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:膜的取样设备
- 下一篇:一种大型无源互调屏蔽暗室





