[发明专利]句子相似度计算方法、系统及计算机可读存储介质在审
申请号: | 202110100228.8 | 申请日: | 2021-01-26 |
公开(公告)号: | CN113312908A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 孙譞;詹舒波;黄宇 | 申请(专利权)人: | 北京新方通信技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
地址: | 100082 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 相似 计算方法 系统 计算机 可读 存储 介质 | ||
本发明提供了句子相似度计算方法、系统及计算机可读存储介质,其中句子相似度计算方法,包括以下步骤:步骤1:获取语句SEN1和SEN2;步骤2:对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';步骤3:分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;步骤4:根据所述语义相似度和所述特征测量结果得到语句SEN1和SEN2的相似度。本句子相似度计算方法、系统及计算机可读存储介质,能够对等效语义短语进行体现,提高句子相似度计算的准确性。基于相似短语映射数据文件的句子成分替换,使得SEN1、SEN2的相关表述方式一致。不仅考虑字面的语义匹配,还支持同义词、近义的语义匹配。考虑了不同类型词的语义贡献,还考虑句型结构的语义贡献。
技术领域
本发明涉及句子相似度计算技术领域,尤其涉及句子相似度计算方法、系统及计算机可读存储介质。
背景技术
汉语是弱语法语言,语义计算面对多方面困难。目前计算句子之间相似度有利于正确理解语义,目前的句子相似度的计算方法主要包括:
句子相似度,可以计算两个向量的空间距离得出,句子的向量表示来自Seq2Seq模型的encoder最后输出的state,它具有句子的语意信息,在论文中常常用context表示。基于词向量计算两个短句的句向量的夹角,即余弦距离。得到两个句子的句向量后cosin计算两个向量间的夹角大小,即余弦距离,夹角值为0表示语义相同,值越大表示差异越大。缺点是:多义词、反义词、等效语义短语的效果差,每个词只能有一个向量,多义词不能表达多个含义;一个对反义词词向量无法通过叠加一个字向量(不、没)实现向量等同。词向量总是不充分,实践中总是遇到许多词向量查找失败的情况,严重影响语义计算。维基百科中出现的词是有限的。汉语词不是静态的是动态扩展的;关键特征识别差。
各种字面距离比较方法。典型的,如汉明距离:一个句子通过添加、删除字词变换成另一个句子的操作数量。差异越小,越不需要增减字词,表示距离越小。又如,jaccard距离,两个句子字的交集/两个句子字的并集。两句子越相同,距离值越接近1.0。但是,汉明距离、jaccard距离、fuzzy匹配等等,他们都是比较字面文字的差异,差异越小,语义越相近。但是上述计算方法对于等效语义短语等都无法体现。
用深度学习方法计算两个短句是否相似。如bert、深度神经网络等,通过标注大量语句对,语义相同语句对,语义不同语句对,训练学习短句两两是否相似。这种方式将语言的复杂性交给算法盒子自己处理,缺点是标注数据无法充分,准确率难以满足商用。
发明内容
有鉴于此,本发明要解决的技术问题是提供句子相似度计算方法、系统及计算机可读存储介质,能够对等效语义短语进行体现,提高句子相似度计算的准确性。
本发明的技术方案是这样实现的:
一种句子相似度计算方法,包括以下步骤:
步骤1:获取语句SEN1和SEN2;
步骤2:对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';
步骤3:分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;
步骤4:根据所述语义相似度和所述特征测量结果得到SEN1和SEN2的相似度。
优选的,在所述步骤2之前,还包括:
对SEN1和SEN2去停用词。
优选的,所述步骤2具体包括:
步骤21:构建相似短语映射表;
步骤22:根据所述相似短语映射表对对SEN1和SEN2进行相似短语替换。
优选的,在所述步骤3具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新方通信技术有限公司,未经北京新方通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110100228.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:减振装置
- 下一篇:服务器系统及游戏系统