[发明专利]判断两个文本语义相似度的方法、装置、存储介质及设备有效
| 申请号: | 201911423457.2 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111160028B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵晓荣 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 判断 两个 文本 语义 相似 方法 装置 存储 介质 设备 | ||
本申请公开了一种判断两个文本语义相似度的方法、装置、存储介质及设备,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;分别过滤掉所述第一分词结果和第二分词结果中的无意义词;利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;通过所述差异词集合判断两个文本的语义相似度。该方法可以有效消除两个文本中非差异词对判断结果带来的影响,从而能够得到更加准确的判断结果。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种判断两个文本语义相似度的方法、装置、存储介质及设备。
背景技术
随着人工智能的发展,信息数据处理量越来越大,文本数量更是成指数型增长,如何准确判断出文本间的相似度,以便于精确检索出信息,已成为目前亟待解决的问题。
但在现有技术中,仅单纯利用词频-逆文本频率指数tf-idf算法或word2vec来计算两个文本之间的相似度,这种计算方式仅仅能够在语义层面判断出两个文本之间的相似度,并未考虑文本所处的语境,即,仅能够通过预先设定的阈值来判断两个文本所描述的内容是否一致,却无法获得这两个文本间在所属语境中更加准确的语义相似度,例如,在利用现有的向量化方式对文本“沈阳地铁建设项目”和“沈阳地铁系统建设项目”进行相似度计算时,通常会得到较好的相似度计算结果。
但是,根据人工判断可知,这两个文本之间存在差异词“系统”,且文本“沈阳地铁建设项目”描述的可能是沈阳地铁具体的工程项目建设情况(如建设地点、招标单位等),而文本“沈阳地铁系统建设项目”描述的可能是有关沈阳地铁的软件系统(如通信系统等)或硬件系统(如排水系统等)的构建项目,也就是说,这两个文本描述的内容可能存在极大的差距。因此,现有技术中的方法不能准确判断两个文本的语义相似度。
发明内容
本申请提供了一种判断两个文本语义相似度的方法、装置、存储介质及设备,能够准确判断两个文本的语义相似度。
本申请提供一种判断两个文本语义相似度的方法,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:
分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;
分别过滤掉所述第一分词结果和第二分词结果中的无意义词;
利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;
通过所述差异词集合判断两个文本的语义相似度。
优选地,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
分别对所述第一分词结果和所述第二分词结果进行词性标注,根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。
优选地,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
对于所述第一分词结果和所述第二分词结果中非地名的词语,利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词;
将所述无意义词过滤掉。
优选地,在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,之前还包括:
对于动词存在相邻的名词时,将所述动词以及与其相邻的名词进行合并作为一个复合名词。
优选地,所述通过所述差异词集合判断两个文本的语义相似度,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423457.2/2.html,转载请声明来源钻瓜专利网。





