[发明专利]文本相似度计算方法、装置、介质及电子设备有效
申请号: | 201910979616.0 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110941951B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 陈瑞清;许开河;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 魏学昊 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 介质 电子设备 | ||
1.一种文本相似度计算方法,其特征在于,所述方法包括:
将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
针对所述第一词与所述第二词,将每个词的词向量和非每个词所在文本中各词的词向量的转置向量分别进行叉乘,获取分别表示每个词和非每个词所在文本中每个词之间相似特征的若干第一正则值,各所述第一正则值均表示每个词和非每个词所在文本中一个词的相似特征;
将每个词的所有所述第一正则值均除以一设定值,获取表示每个词与非每个词所在文本中每个词相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,各所述第一正则权重之和为1;
将各所述第一正则权重分别和其对应的非每个词所在文本中的词的词向量叉乘,得到表示每个词与非每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和非每个词所在文本中一个词的相似特征;
将已得到表示每个词与非每个词所在文本中每一词相似特征的所述若干向量相加,获取表示每个词和非每个词所在文本之间相似特征的互注意力向量;
针对所述第一词与所述第二词,将每个词的词向量与每个词的互注意力向量进行拼接,获取该词的拼接向量;
将每个词的所述拼接向量进行降维处理,得到与每个词的互注意力向量维数相同的降维向量;
将每个词的所述拼接向量和计算获取的表示每个词在文本中语序位置的位置向量相加,获取每个词的增强互注意力向量;
针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征;
将各所述第二正则权重分别和其对应的词所在文本中的词的词向量叉乘,得到表示每个词与每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和每个词所在文本中一个词的相似特征;
将已得到的所述若干向量相加,获取表示每个词、非每个词所在文本和每个词所在文本相似特征的自注意力向量;分别取所述第一词的所述自注意力向量中的特定值和所述第二词的所述自注意力向量中的特定值,形成由所述第一文本的各所述特定值组成的第一相似向量和由所述第二文本的各所述特定值组成的第二相似向量;
将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本与所述第二文本相似度的相似值。
2.根据权利要求1所述的方法,其特征在于,所述将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量,包括:
对所述第一文本及所述第二文本分别进行分词处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词;
针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
3.根据权利要求2所述的方法,其特征在于,针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量,包括:
利用Word2vec模型对每个词进行向量化处理,获取表示每个词词意的词意向量;
利用Word2vec模型对每个词中的每个字分别进行向量化处理,获得每个词中每个字的字意向量;
利用Word2vec模型对每个词进行向量化处理,获取表示每个词在其所在文本中语序位置的位置向量;
将每个词的词意向量、每个词中每个字的字意向量和每个词的位置向量相加,得到表示每个词特征的词向量。
4.根据权利要求1所述的方法,其特征在于,获取表示所述第一文本与所述第二文本的相似度的相似值之后,还包括:
利用误差模型,评估所述相似值的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910979616.0/1.html,转载请声明来源钻瓜专利网。