[发明专利]一种基于粗细粒度融合的句子相似度计算方法在审
申请号: | 202110259846.7 | 申请日: | 2021-03-10 |
公开(公告)号: | CN113033181A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 黄兴哲;高亚 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粗细 粒度 融合 句子 相似 计算方法 | ||
1.一种基于粗细粒度融合的句子相似度计算方法,其特征在于,所述方法应该包括以下步骤:
S1.将句子对进行分词后,根据分词和句子成分标注的结果对句子相似度进行粗粒度的计算,给出相似度的最小值和最大值区间;
S2.在细粒度计算过程中,分别从三元组依赖关系提取,语义相似度计算和句法相似度计算三方面精细考虑句子特征;
S3.将粗粒度计算得分和细粒度计算得分相融合,给出最终的相似度计算得分。
2.根据权利要求1所述的一种基于粗细粒度融合的句子相似度计算方法,其特征在于,所述S1具体过程为:
将句子使用Stanford句法解析器对句子进行分词和成分标注,每个句子可能包含一个或多个主语,谓语动词和宾语,只要任何一对主语相同的,或者他们的相似性值大于预定义的阈值,就认为句子对的主语是相同的,否则就是不同的,宾语和谓语也采用同样的判断方式,在这一步中,根据主语、谓语和宾语是否相同来确定每个句子对的句型类型,最后,在得出句子对的主语,谓语和宾语是否相同后根据预先给定的相似度区间字典给出该句子对的粗粒度计算结果,其中,相似度区间字典是根据专家经验规定的。
3.根据权利要求1所述的一种基于粗细粒度融合的句子相似度计算方法,其特征在于,所述的S2具体过程为:
在细粒度计算过程中,分别从三元组依赖关系提取,语义相似度计算和句法相似度计算三方面精细考虑句子特征,在依赖关系提取中使用Stanford解析器从每个句子中获得一组依赖关系,每一种依赖关系都由关系类型、支配关系和依赖关系三部分组成,在语法相似度计算中,假设从SentenceA派生的依赖关系集是A={a1,a2,...,an},假设从SentenceB派生的依赖关系集是B={b1,b2,...,bm},其中ai表示从SentenceA获得的依赖关系三元组中的一个,bj表示从SentenceB获得的依赖关系三元组中的一个,在计算两组依赖关系三元组之间的相似度之前,必须确定如何计算两个依赖关系三元组之间的相似度,这里仅当两个依赖关系三元组的依赖关系类型相同时才计算它们之间的相似度,否则我们将相似度值设置为0,当它们的依赖关系类型相同时,我们给支配部分和依赖部分分配相等的权重,当它们的词性相同时,两个依赖关系之间的相似度值设置为1,否则相似度值设置为0,这样,两个依赖关系三元组之间的相似度只能是1,0.5或0,基于两个依赖关系三元组之间的相似度计算方法,使用如下公式计算语法相似度,
在语义相似度过程中,我们使用Stanford解析器将每个句子解析成一系列依赖关系三元组,用S={T1,T2,...,Tn}表示,其中S表示句子,Ti表示SentenceS的第i个依赖关系三元组的类型,n表示依赖关系三元组的数目,Ti={gi,di,ti}其中gi表示SentenceS的第i个依赖关系三元组的调控器,Ti表示SentenceS的第i类型依赖关系三元组的类型,di表示SentenceS的第i依赖关系三元组的依赖。三元组相似度计算如下:
其中,α和β为平衡因子,且满足α+β=1。q的取值为0或者1,当和相等时为1,不相等时为0,
对于单词对之间的语义相似度使用下面的公式进行计算,
其中,LCS代表单词w1和单词w2的Least Common Subsumer,LCSdepth代表从LCS到根路径的节点数目和代表到达LCS的节点数目,
基于公式(1),(2),(3)计算语义相似度。
4.根据权利要求1所述的一种基于粗细粒度融合的句子相似度计算方法,其特征在于,所述的S3具体过程为:
将粗粒度计算结果与细粒度计算结果进行融合得出最后的语义计算结果,
SS(s1,s2)=lowest+{highest-lowest}×{α×Syn(s1,s2)+(1-α)×Sem(s1,s2)} (5)
其中,SS(s1,s2)代表最终的句子相似度得分,lowest代表粗粒度计算中给出的相似度最低值,highest代表粗粒度计算中给出的相似度最高值,Syn(s1,s2)和Sem(s1,s2)分别代表语法相似度和语义相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110259846.7/1.html,转载请声明来源钻瓜专利网。