[发明专利]判断两个文本语义相似度的方法、装置、存储介质及设备有效
| 申请号: | 201911423457.2 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111160028B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 赵耕弘;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵晓荣 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 判断 两个 文本 语义 相似 方法 装置 存储 介质 设备 | ||
1.一种判断两个文本语义相似度的方法,其特征在于,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:
分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;
分别过滤掉所述第一分词结果和第二分词结果中的无意义词;
利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;
当所述第一文本和所述第二文本的差异词集合均为非空集合时,通过搜索引擎搜索所述第一文本对应的第一非空集合中的所有词和所述第二文本对应的第二非空集合中的所有词;
通过word2vec分别获得所述第一非空集合中所有词的向量相加得到的第一向量和所述第二非空集合中所有的词的向量相加得到的第二向量;
利用余弦相似度获得所述第一向量和所述第二向量的相似度;
如果所述相似度小于等于预设相似度阈值,通过所述搜索引擎搜索包括所述第一非空集合中的所有词的第一网页集合,通过所述搜索引擎搜索包括所述第二非空集合中的所有词的第二网页集合;
获得所述第一网页集合中包括所述第二非空集合中至少一个词的第一网页数目,获得所述第二网页集合中包括所述第一非空集合中至少一个词的第二网页数目;
获得所述第一网页数目与所述第一网页集合中网页总数目的第一比值,获得所述第二网页数目与所述第二网页集合中网页总数目的第二比值;
获得包括所述第一非空集合中的词和所述第二非空集合中词两两组合的网页总数目;利用所述第一非空集合中的词和所述第二非空集合中词两两组合的种类和所述两两组合的网页总数目获得两两组合对应的平均值;
利用所述第一比值与所述第二比值的和以及所述平均值来修正所述相似度;
当修正后的相似度大于所述预设相似度阈值,则确定所述第一文本和所述第二文本语义相似,反之确定则确定所述第一文本和所述第二文本语义不相似。
2.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
分别对所述第一分词结果和所述第二分词结果进行词性标注,根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。
3.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:
对于所述第一分词结果和所述第二分词结果中非地名的词语,利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词;
将所述无意义词过滤掉。
4.根据权利要求1所述的方法,其特征在于,在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,之前还包括:
对于动词存在相邻的名词时,将所述动词以及与其相邻的名词进行合并作为一个复合名词。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:如果所述相似度大于预设相似度阈值,则确定所述第一文本和所述第二文本语义相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911423457.2/1.html,转载请声明来源钻瓜专利网。





