[发明专利]文本相似度计算方法、装置、电子设备和存储介质在审
申请号: | 202010859824.X | 申请日: | 2020-08-24 |
公开(公告)号: | CN112131341A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 陈海阳;孙一凫 | 申请(专利权)人: | 博锐尚格科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100120 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 电子设备 存储 介质 | ||
1.一种文本相似度计算方法,其特征在于,所述方法包括:
获取第一文本,对所述第一文本分词处理,获取第一文本的词集合;
获取第二文本,对所述第二文本分词处理,获取第二文本的词集合;
计算所述第一文本的词集合的各词和所述第二文本的词集合中各词两两之间的词相似度,确定词相似度矩阵;
根据所述词相似度矩阵计算所述第一文本和所述第二文本的文本相似度。
2.根据权利要求1所述的方法,其特征在于,计算所述第一文本的词集合的各词和所述第二文本的词集合中各词两两之间的相似度,确定词相似度矩阵,通过如下步骤确定所述相似度矩阵中的每一个元素:
获取所述第一文本的词集合的第n个词作为第一目标词;
获取所述第二文本的词集合的第m个词作为第二目标词;
根据词林确定第一目标词对应的第一词编码;
根据词林确定第二目标词对应的第二词编码;
根据所述第一词编码和所述第二词编码计算所述第一目标词和第二目标词的词相似度作为相似度矩阵第n行第m列的元素。
3.根据权利要求2所述的方法,其特征在于,根据所述第一词编码和所述第二词编码计算所述第一目标词和第二目标词的词相似度包括:
所述词编码包括多个编码段,不同的编码段层级化地表征对应的词的类别;
分别计算第一词编码和所述第二词编码各对应的编码段的相似度确定相似度集合;
根据所述相似度集合计算所述第一目标词和第二目标词的词相似度。
4.根据权利要求3所述的方法,其特征在于,根据所述相似度集合计算所述第一目标词和第二目标词的词相似度包括:
将所述相似度集合中全部元素求和获得所述第一目标词和第二目标词的词相似度。
5.根据权利要求1所述的方法,其特征在于,根据所述词相似度矩阵计算所述第一文本和所述第二文本的文本相似度;
获取所述词语相似度矩阵每行的最大值,生成行最大值集合,求平均值后,获得行平均值;
获取所述词语相似度矩阵每列的最大值,生成列最大值集合,求平均值后,获得列平均值;
计算文本相似度,所述文本相似度为所述行平均值和所述列平均值的平均值。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
收集新词语料,对所述新词语料分词处理获得新词,用所述新词更新所述词林;或
接收删除指令,从所述词林中删除无效词;或
接收调整指令,在所述词林中修改调整词的词编码。
7.根据权利要求6所述的方法,其特征在于,所述用所述新词更新所述词林包括:
获取所述新词的多个近似词语;
获取所述多个近似词语的所述词编码;
将出现频率最高的词编码作为所述新词的词编码;
根据新词的词编码更新所述词林。
8.一种文本相似度计算装置,其特征在于,所述装置包括:
第一分词单元,被配置为获取第一文本,对所述第一文本分词处理,获取第一文本的词集合;
第二分词单元,被配置为获取第二文本,对所述第二文本分词处理,获取第二文本的词集合;
词相似度计算单元,被配置为计算所述第一文本的词集合的各词和所述第二文本的词集合中各词两两之间的词相似度,确定词相似度矩阵;
文本相似度计算单元,被配置为根据所述词相似度矩阵计算所述第一文本和所述第二文本的文本相似度。
9.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博锐尚格科技股份有限公司,未经博锐尚格科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010859824.X/1.html,转载请声明来源钻瓜专利网。