[发明专利]判断两个文本语义相似度的方法、装置、存储介质及设备有效

专利信息
申请号: 201911423457.2 申请日: 2019-12-31
公开(公告)号: CN111160028B 公开(公告)日: 2023-05-16
发明(设计)人: 赵耕弘;崔朝辉;赵立军;张霞 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 赵晓荣
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 判断 两个 文本 语义 相似 方法 装置 存储 介质 设备
【权利要求书】:

1.一种判断两个文本语义相似度的方法,其特征在于,用于判断以下两个文本的语义相似度:第一文本和第二文本;包括:

分别对所述第一文本和所述第二文本进行分词得到第一分词结果和第二分词结果;

分别过滤掉所述第一分词结果和第二分词结果中的无意义词;

利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合;

当所述第一文本和所述第二文本的差异词集合均为非空集合时,通过搜索引擎搜索所述第一文本对应的第一非空集合中的所有词和所述第二文本对应的第二非空集合中的所有词;

通过word2vec分别获得所述第一非空集合中所有词的向量相加得到的第一向量和所述第二非空集合中所有的词的向量相加得到的第二向量;

利用余弦相似度获得所述第一向量和所述第二向量的相似度;

如果所述相似度小于等于预设相似度阈值,通过所述搜索引擎搜索包括所述第一非空集合中的所有词的第一网页集合,通过所述搜索引擎搜索包括所述第二非空集合中的所有词的第二网页集合;

获得所述第一网页集合中包括所述第二非空集合中至少一个词的第一网页数目,获得所述第二网页集合中包括所述第一非空集合中至少一个词的第二网页数目;

获得所述第一网页数目与所述第一网页集合中网页总数目的第一比值,获得所述第二网页数目与所述第二网页集合中网页总数目的第二比值;

获得包括所述第一非空集合中的词和所述第二非空集合中词两两组合的网页总数目;利用所述第一非空集合中的词和所述第二非空集合中词两两组合的种类和所述两两组合的网页总数目获得两两组合对应的平均值;

利用所述第一比值与所述第二比值的和以及所述平均值来修正所述相似度;

当修正后的相似度大于所述预设相似度阈值,则确定所述第一文本和所述第二文本语义相似,反之确定则确定所述第一文本和所述第二文本语义不相似。

2.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:

分别对所述第一分词结果和所述第二分词结果进行词性标注,根据词性标注结果过滤掉所述第一分词结果和所述第二分词结果中的无意义词。

3.根据权利要求1所述的方法,其特征在于,所述分别过滤掉所述第一分词结果和第二分词结果中的无意义词,具体包括:

对于所述第一分词结果和所述第二分词结果中非地名的词语,利用词频-逆文本频率指数tf-idf算法获得idf值小于第一预设阈值的词作为无意义词;

将所述无意义词过滤掉。

4.根据权利要求1所述的方法,其特征在于,在所述利用文本编辑距离算法获得过滤后的第一分词结果和第二分词结果之间的差异词集合,之前还包括:

对于动词存在相邻的名词时,将所述动词以及与其相邻的名词进行合并作为一个复合名词。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:如果所述相似度大于预设相似度阈值,则确定所述第一文本和所述第二文本语义相似。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911423457.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top