[发明专利]句子相似度计算方法、系统及计算机可读存储介质在审

专利信息
申请号: 202110100228.8 申请日: 2021-01-26
公开(公告)号: CN113312908A 公开(公告)日: 2021-08-27
发明(设计)人: 孙譞;詹舒波;黄宇 申请(专利权)人: 北京新方通信技术有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/30;G06K9/62
代理公司: 北京中济纬天专利代理有限公司 11429 代理人: 张莹
地址: 100082 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 句子 相似 计算方法 系统 计算机 可读 存储 介质
【说明书】:

发明提供了句子相似度计算方法、系统及计算机可读存储介质,其中句子相似度计算方法,包括以下步骤:步骤1:获取语句SEN1和SEN2;步骤2:对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';步骤3:分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;步骤4:根据所述语义相似度和所述特征测量结果得到语句SEN1和SEN2的相似度。本句子相似度计算方法、系统及计算机可读存储介质,能够对等效语义短语进行体现,提高句子相似度计算的准确性。基于相似短语映射数据文件的句子成分替换,使得SEN1、SEN2的相关表述方式一致。不仅考虑字面的语义匹配,还支持同义词、近义的语义匹配。考虑了不同类型词的语义贡献,还考虑句型结构的语义贡献。

技术领域

本发明涉及句子相似度计算技术领域,尤其涉及句子相似度计算方法、系统及计算机可读存储介质。

背景技术

汉语是弱语法语言,语义计算面对多方面困难。目前计算句子之间相似度有利于正确理解语义,目前的句子相似度的计算方法主要包括:

句子相似度,可以计算两个向量的空间距离得出,句子的向量表示来自Seq2Seq模型的encoder最后输出的state,它具有句子的语意信息,在论文中常常用context表示。基于词向量计算两个短句的句向量的夹角,即余弦距离。得到两个句子的句向量后cosin计算两个向量间的夹角大小,即余弦距离,夹角值为0表示语义相同,值越大表示差异越大。缺点是:多义词、反义词、等效语义短语的效果差,每个词只能有一个向量,多义词不能表达多个含义;一个对反义词词向量无法通过叠加一个字向量(不、没)实现向量等同。词向量总是不充分,实践中总是遇到许多词向量查找失败的情况,严重影响语义计算。维基百科中出现的词是有限的。汉语词不是静态的是动态扩展的;关键特征识别差。

各种字面距离比较方法。典型的,如汉明距离:一个句子通过添加、删除字词变换成另一个句子的操作数量。差异越小,越不需要增减字词,表示距离越小。又如,jaccard距离,两个句子字的交集/两个句子字的并集。两句子越相同,距离值越接近1.0。但是,汉明距离、jaccard距离、fuzzy匹配等等,他们都是比较字面文字的差异,差异越小,语义越相近。但是上述计算方法对于等效语义短语等都无法体现。

用深度学习方法计算两个短句是否相似。如bert、深度神经网络等,通过标注大量语句对,语义相同语句对,语义不同语句对,训练学习短句两两是否相似。这种方式将语言的复杂性交给算法盒子自己处理,缺点是标注数据无法充分,准确率难以满足商用。

发明内容

有鉴于此,本发明要解决的技术问题是提供句子相似度计算方法、系统及计算机可读存储介质,能够对等效语义短语进行体现,提高句子相似度计算的准确性。

本发明的技术方案是这样实现的:

一种句子相似度计算方法,包括以下步骤:

步骤1:获取语句SEN1和SEN2;

步骤2:对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';

步骤3:分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;

步骤4:根据所述语义相似度和所述特征测量结果得到SEN1和SEN2的相似度。

优选的,在所述步骤2之前,还包括:

对SEN1和SEN2去停用词。

优选的,所述步骤2具体包括:

步骤21:构建相似短语映射表;

步骤22:根据所述相似短语映射表对对SEN1和SEN2进行相似短语替换。

优选的,在所述步骤3具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新方通信技术有限公司,未经北京新方通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110100228.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top