[发明专利]文本相似度计算方法、装置、电子设备和存储介质在审
申请号: | 202010859824.X | 申请日: | 2020-08-24 |
公开(公告)号: | CN112131341A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 陈海阳;孙一凫 | 申请(专利权)人: | 博锐尚格科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100120 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 计算方法 装置 电子设备 存储 介质 | ||
本发明实施例提供了一种文本相似度计算方法、装置、电子设备和存储介质。本发明实施例的技术方案,对于专业领域,在项目初期以普通词林为基础,对第一文本和第二文本进行分词,获得词集合,根据词集合中各词的相似度确定词相似度矩阵,根据词相似度矩阵计算第一文本和第二文本的相似度,从而,在项目初期,不需要积累大量的专业词汇语料的情况,就能够并获得较好的文本相似度计算结果。
技术领域
本发明涉及计算机技术领域,具体涉及一种文本相似度计算方法、装置、电子设备和存储介质。
背景技术
文本相似度计算在信息检索、推荐领域发挥重大作用。高效准确的文本相似度方法极大提高各种场合信息检索、匹配、整合的效率。文本相似度可分为三类,分别是基于字符串的方法,基于向量空间的方法和深度学习的方法。其一,基于字符串的方法不考虑字符的语义,准确率上限比较低。其二,基于向量空间的方法根据如何表示向量,也可以分为三类,分别是人工编撰词典、离散式分布、分布式分布。其三,深度学习的方法,在这种方法大规模在文本相似度领域应用之前,基于向量空间的方法是主流。然而,深度学习的方法需要大量的语料,在垂直领域想要有不错的效果,通常需要人工收集整理大量的语料。例如,建筑专业领域的文字信息的近似性搜索查找,涉及到建筑相关专业的语料没有通用领域那么充沛,且语料的格式、形式不统一,如果通过深度学习的方法来实现文本相似度计算方法,需要事先由人工收集整理大量的语料,从而导致在专业领域的文本相似度计算方法难以落地,并耗费大量的人力。
发明内容
有鉴于此,本发明实施例的目的是提供一种文本相似度计算方法、装置、电子设备和存储介质,以提高专业领域文本相似度计算的准确率。
第一方面,本发明实施例提供一种文本相似度计算方法,所述方法包括:
获取第一文本,对所述第一文本分词处理,获取第一文本的词集合;
获取第二文本,对所述第二文本分词处理,获取第二文本的词集合;
计算所述第一文本的词集合的各词和所述第二文本的词集合中各词两两之间的相似度,确定词相似度矩阵;
根据所述词相似度矩阵计算所述第一文本和所述第二文本的文本相似度。
优选地,计算所述第一文本的词集合的各词和所述第二文本的词集合中各词两两之间的相似度,确定词相似度矩阵,通过如下步骤确定所述相似度矩阵中的每一个元素:
获取所述第一文本的词集合的第n个词作为第一目标词;
获取所述第二文本的词集合的第m个词作为第二目标词;
根据词林确定第一目标词对应的第一词编码;
根据词林确定第二目标词对应的第二词编码;
根据所述第一词编码和所述第二词编码计算所述第一目标词和第二目标词的词相似度作为相似度矩阵第n行第m列的元素。
优选地,根据所述第一词编码和所述第二词编码计算所述第一目标词和第二目标词的词相似度包括:
所述词编码包括多个编码段,不同的编码段层级化地表征对应的词的类别;
分别计算第一词编码和所述第二词编码各对应的编码段的相似度确定相似度集合;
根据所述相似度集合计算所述第一目标词和第二目标词的词相似度。
优选地,根据所述相似度集合计算所述第一目标词和第二目标词的词相似度包括:
将所述相似度集合中全部元素求和获得所述第一目标词和第二目标词的词相似度。
优选地,根据所述词相似度矩阵计算所述第一文本和所述第二文本的文本相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博锐尚格科技股份有限公司,未经博锐尚格科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010859824.X/2.html,转载请声明来源钻瓜专利网。