[发明专利]一种文本相似度计算方法、系统、设备及介质有效

专利信息
申请号: 202310553994.9 申请日: 2023-05-17
公开(公告)号: CN116304748B 公开(公告)日: 2023-07-28
发明(设计)人: 陈松;廖海;梁艳;乔治锡;李武 申请(专利权)人: 成都工业学院
主分类号: G06F18/22 分类号: G06F18/22;G06F40/253;G06F16/35;G06N3/0455
代理公司: 成都行之智信知识产权代理有限公司 51256 代理人: 徐骥
地址: 610000*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 相似 计算方法 系统 设备 介质
【说明书】:

发明公开了一种文本相似度计算方法、系统、设备及介质,涉及自然语言处理技术领域,其技术方案要点是:获取待计算相似度的目标文本数据,确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量;对目标文本数据进行矢量化编码处理,得到目标文本数据的文本向量;根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图;利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算,得到文本语义图的文本注意力特征向量;将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接,得到目标文本数据的文本语义特征向量;对文本语义特征向量进行分类和回归处理,以计算出目标文本数据的相似度。

技术领域

本发明涉及一种自然语言处理技术领域,更具体地说,它涉及一种文本相似度计算方法、系统、设备及介质。

背景技术

短文本语义相似度计算是自然语言处理中的一个基本问题,其目的是预测两个句子之间的相似度得分。有许多应用程序使用短文本语义相似技术。然而,在这些任务中,短文本不同于新闻和杂志等常见的长文本。短文本的内容过于稀疏,因此,要正确计算两个句子之间的语义相似性并不容易。对于文本语义相似度的计算,现有技术主要有三种方法:基于统计的计算方法。如TF-IDF、LDA、Word2vec通过词汇重合度或距离来计算两个句子的相似度;基于深度学习的计算方法。如CNN、RNN、LSTM先获取句子的向量表示,然后使用神经网络拟合两个句子的相似度;基于预训练语言模型的计算方法。如BERT、ERNIE、T5等方法,使用大规模的未标记语料库在上游任务上预训练模型。

现有技术主要有以下缺陷:(1)没有考虑到短文本句子的词对之间的语法结构特征。语法结构是一个句子的重要语义信息组成,包括主谓关系、动宾关系、核心关系等语法成分。目前基于预训练语言模型的方法并没有对短文本句子的语法进行很好的建模,这导致模型很难提取出短文本句子真正想要表达的语义信息,从而影响相似度计算结果。(2)难以学习到词与词之间的依存关系。短文本句子不同于新闻和杂志等常见的长文本语句,它的内容过于稀疏,这导致一个短文本句子通常缺乏上下文关联。由于在现有方法中,短文本句子的词与词之间的依存关系并没有被考虑加入到语义特征向量中去,这导致难以区分一个短文本句子中词与词之间不同关系的重要性,而这也间接影响了后续的相似度计算结果。

发明内容

本发明解决了现有技术因无法对语法和依存关系进行分析,从而导致后续的相似度计算结果的精度受到影响的问题,本发明提供了一种文本相似度计算方法、系统、设备及介质,本发明以文本句子的词的词向量作为节点,以词与词之间所存在的依存关系为边,构建出文本语义图,使得文本语义图具有表征词与词之间的依存关系的能力,从而使得文本语义图能够提取出短文本句子真正想要表达的语义特征向量信息,再结合多头注意力机制对文本语义图所有节点进行注意力计算,确定出文本语义图所有节点的词的文本注意力特征向量,最后再将目标文本数据的文本向量与文本注意力特征向量融合,以进一步增强目标文本数据的文本语义特征向量表示,进而使得一个短文本句子中词与词之间不同关系的重要性得以区分,便于提高后续的相似度计算结果的精度。

本发明的上述技术目的是通过以下技术方案得以实现的:

本申请的第一方面,提供了一种文本相似度计算方法,方法包括:

获取待计算相似度的目标文本数据,其中目标文本数据至少包括一条文本句子;

确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量;

对目标文本数据进行矢量化编码处理,得到目标文本数据的文本向量;

根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图,其中在词与词之间存在依存关系时,将词对应的节点连接,以形成文本语义图的一条边;

利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算,得到文本语义图的文本注意力特征向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都工业学院,未经成都工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310553994.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top