[发明专利]文本相似度计算方法、装置、介质及电子设备有效
申请号: | 201910979616.0 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110941951B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 陈瑞清;许开河;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/284 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 魏学昊 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 介质 电子设备 | ||
本公开涉及语言处理领域,揭示了一种文本相似度计算方法、装置、介质及电子设备。该方法包括:将第一文本与第二文本分别进行分词及向量化处理;针对第一文本中的每个词与第二文本中的每个词,计算获取表示该词和非该词所在文本之间相似特征的互注意力向量;针对第一文本中的每个词与第二文本中的每个词,计算获取表示第一文本与第二文本的相似度的相似值。采用该方法,能够提高文本相似度计算的准确性。
技术领域
本公开涉及语言处理技术领域,特别涉及一种文本相似度计算方法、装置、介质及电子设备。
背景技术
在大数据处理过程中,为了分析不同文字内容之间的相似度,需要采集不同的文本,并对采集到的文本进行相似度处理,将内容相似的文本归为一类,从而对内容相似的文本所呈现的状况进行统一处理,提升突发状况的处理效率。
而现有的文本相似度处理技术,由于对句子的表征能力欠缺以及采用的处理方法简单,对文本相似的处理结果通常不准确,造成对文本的后续处理失当。
发明内容
在语言处理技术领域,为了解决上述技术问题,本公开的目的在于提供一种文本相似度计算方法、装置、介质及电子设备。
根据本申请的另一方面,提供了一种文本相似度计算方法,所述方法包括:
将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
根据本申请的一方面,提供了一种文本相似度计算装置,所述装置包括:
词向量获取模块,被配置为将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
第一计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
第二计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
第三计算模块,被配置为利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
根据本申请的一方面,提供的一种文本相似度计算装置的词向量处理模块包括:
分词处理子模块,被配置为对所述第一文本及所述第二文本分别进行分词处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词;
向量化处理子模块,被配置为针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
根据本申请的一方面,提供的一种文本相似度计算装置的向量化处理子模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910979616.0/2.html,转载请声明来源钻瓜专利网。