[发明专利]一种文本相似度计算方法、系统、设备及介质有效

申请号：	202310553994.9	申请日：	2023-05-17
公开（公告）号：	CN116304748B	公开（公告）日：	2023-07-28
发明（设计）人：	陈松;廖海;梁艳;乔治锡;李武	申请（专利权）人：	成都工业学院
主分类号：	G06F18/22	分类号：	G06F18/22;G06F40/253;G06F16/35;G06N3/0455
代理公司：	成都行之智信知识产权代理有限公司 51256	代理人：	徐骥
地址：	610000***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本相似计算方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本相似度计算方法，其特征在于，方法包括：

获取待计算相似度的目标文本数据，其中目标文本数据至少包括一条文本句子；

确定表征目标文本数据的词与词之间是否存在依存关系的邻接向量；

对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量；

根据邻接向量和构成文本句子的词向量构建目标文本数据的文本语义图，其中在词与词之间存在依存关系时，将词对应的节点连接，以形成文本语义图的一条边；

利用多头注意力机制对文本语义图的每个节点的语义特征向量进行多头注意力计算，得到文本语义图的文本注意力特征向量，其中，根据文本语义图所包含的词节点，将词节点划分为第一词节点和第二词节点，其中，与第一词节点相邻的节点均为第二词节点；根据第一词节点和第二词节点在文本语义图中的语义特征向量，逐个计算出第一词节点的注意力互相关系数；对注意力互相关系数进行归一化处理，得到第一词节点的注意力分数；根据注意力分数对第二词节点的语义特征向量进行加权求和，得到第一词节点的语义特征向量；基于多头注意力机制对第一词节点的语义特征向量分配K组相互独立的注意力计算，并对注意力计算的计算结果做平均化处理，得到文本语义图的文本注意力特征向量；其中K为正整数；

将文本语义图的文本注意力特征向量与目标文本数据的文本向量进行拼接，得到目标文本数据的文本语义特征向量；

对文本语义特征向量进行分类和回归处理，以计算出目标文本数据的相似度。

2.根据权利要求1所述的一种文本相似度计算方法，其特征在于，确定邻接向量的过程包括：

获取文本句子的依存句法树；

根据依存句法树对文本句子的语法成分进行分析，得到表征文本句子的词与词依存关系对的三元组，并将三元组转换为邻接矩阵；其中邻接矩阵中任意一个元素表示文本句子的第i个词与第j个词之间是否存在依存关系；

将邻接矩阵的元素转换为向量，得到表征目标文本数据的词与词之间是否存在依存关系的邻接向量。

3.根据权利要求1所述的一种文本相似度计算方法，其特征在于，对目标文本数据进行矢量化编码处理，得到目标文本数据的文本向量，包括：

利用文本顺序标记对目标文本数据所包括的文本句子进行拼接，得到拼接文本数据；

将拼接文本数据输入至多个transformer层进行文本向量化，输出目标文本数据的文本向量，其中每个transformer层均由多头自注意力网络和前馈网络构成的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都工业学院，未经成都工业学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】