[发明专利]句子相似度计算方法、系统及计算机可读存储介质在审
| 申请号: | 202110100228.8 | 申请日: | 2021-01-26 |
| 公开(公告)号: | CN113312908A | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 孙譞;詹舒波;黄宇 | 申请(专利权)人: | 北京新方通信技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
| 地址: | 100082 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 句子 相似 计算方法 系统 计算机 可读 存储 介质 | ||
1.一种句子相似度计算方法,其特征在于,包括以下步骤:
步骤1:获取语句SEN1和SEN2;
步骤2:对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';
步骤3:分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;
步骤4:根据所述语义相似度和所述特征测量结果得到语句SEN1和SEN2的相似度。
2.如权利要求1所述的句子相似度计算方法,其特征在于,在所述步骤2之前,还包括:
对SEN1和SEN2去停用词。
3.如权利要求1所述的句子相似度计算方法,其特征在于,所述步骤2具体包括:
步骤21:构建相似短语映射表;
步骤22:根据所述相似短语映射表对SEN1和SEN2进行相似短语替换。
4.如权利要求1所述的句子相似度计算方法,其特征在于,所述步骤3具体包括:
步骤31:对SEN1'和SEN2'进行词性分析和句型结构分析,获取SEN1'和SEN2'中每个词的词性及其在句型结构中的成分;
步骤32:构建定义不同类型词对语义贡献度的词类型系数表,和定义不同句型结构对语义贡献度的句型结构系数表;
步骤33:计算SEN1'和SEN2'中每个词相对对方的第一语义值;
步骤34:根据所述第一语义值、所述词类型系数表和句型结构系数表计算SEN1'和SEN2'中每个词相对对方的第二语义值;
步骤35:根据所述第二语义值计算SEN1'和SEN2'相对对方的语义相似度;
步骤36:进行特征测量。
5.如权利要求4所述的句子相似度计算方法,其特征在于,所述计算SEN1'和SEN2'中每个词相对对方的第一语义值具体包括:
根据同义词映射表、近义词映射表和反义词映射表计算SEN1'和SEN2'中每个词相对对方的第一语义值。
6.如权利要求4所述的句子相似度计算方法,其特征在于,所述步骤4具体包括:
步骤41:累加所述SEN1'中每个词的第二语义值,得到SEN1'相对语义得分;
步骤42:预设SEN1'中每个词在SEN2'中都存在,相当于每个词的语义值都是1.0,根据所述词类型系数表和句型结构系数表计算SEN1'中每个词相对SEN2'的第三语义值;
步骤43:累加所述SEN1'中每个词的第三语义值,得到SEN1'绝对语义得分;
步骤44:SENC1=SEN1'相对语义得分/SEN1'绝对语义得分;
步骤45:同理计算得到SEN2'的SENC2;
步骤46:所述特征测量结果为F;
步骤47:计算SEN1和SEN2的相似度SENC=F*(SENC1*0.5+SENC2*0.5)。
7.一种句子相似度计算系统,其特征在于,包括:
获取模块,用于获取语句SEN1和SEN2;
相似短语替换模块,用于对SEN1和SEN2进行相似短语替换,得到SEN1'和SEN2';
语义相似度计算及特征测量模块,分别计算SEN1'和SEN2'相对对方的语义相似度并进行特征测量;
句子相似度计算模块,用于根据所述语义相似度和所述特征测量结果得到语句SEN1和SEN2的相似度。
8.如权利要求7所述的句子相似度计算系统,其特征在于,还包括:
去噪模块,用于对SEN1和SEN2去停用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新方通信技术有限公司,未经北京新方通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110100228.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:减振装置
- 下一篇:服务器系统及游戏系统





