[发明专利]基于深度语义模型与语义角色标注的句子相似度评估方法在审
申请号: | 201710876254.3 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107818081A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 周俏丽;杨凤玲 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙)21234 | 代理人: | 李晓光 |
地址: | 110136 辽宁省沈*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 语义 模型 角色 标注 句子 相似 评估 方法 | ||
技术领域
本发明涉及一种自然语言处理技术,具体为一种基于深度语义模型与语义角色标注的句子相似度评估方法。
背景技术
句子相似度(Sentence Similarity Computing)是测量两个句子之间的语义等价性,是自然语言处理领域中十分重要而又较为基础的研究工作。如在基于实例的机器翻译中通过句子相似度计算匹配相似的句子作为翻译的候选集合、在自动问答系统中问题与答案的匹配、在信息过滤中,用于剔除可能的垃圾信息、在自动文摘中通过相似度抽取文摘句子、在分类或聚类中,用来判定句子或文档的类别等。
目前研究句子的相似度方法有吕学强等人提出的基于词形、词序匹配的方法;秦兵等人提出基于关键词的方法;潘谦红等人提出基于属性论的方法;李彬等人提出的使用语义依存计算的方法;穗志方等人提出的基于骨架依存树的方法;车万翔等人提出的改进编辑距离的方法;程传鹏等人提出的基于知网的句子相似度计算方法等等。
目前计算句子相似度的方法可分为三种:(1)基于词语特征的方法,如向量空间模型、词形、词序等;(3)基于语义的方法:如基于语义字典的方法等;(3)基于句法分析的方法,如基于依存句法分析的句子相似度计算等。
基于词语特征的方法只用了句子的表层信息,对于含有同义词、反义词等词汇的句子得不到很好的处理。基于语义字典的方法,在一定程度上解决了基于词语特征方法的不足,但这种方法依赖于语义字典的完备性,忽略了句子词语之间的相互作用关系和句子深层次的句法结构。而基于依存句法分析的方法能够挖掘句子的深层次的信息、获取句子的组织结构和词语间的依存关系,但目前使用的依存句法的方法只利用了句子的有效搭配对,忽略了其他词语对句子相似度的影响。
发明内容
针对现有技术中基于语义角色标注的句子相似度计算建立在以动词为核心的框架的相似度上,存在不能够充分利用动词及其支配的成分信息等不足,本发明提出了基于深度语义模型与语义角色标注的句子相似度计算的方法,从句子的句子结构、语义层面进行分析。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于深度语义模型与语义角色标注的句子相似度评估方法,包括以下步骤:
1)建立深度语义模型:将相对较短的文本字符串映射到低语义空间中的特征向量,获取每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的相似度;
2)语义角色分类处理:A0、A1、A2已有的语义角色进行保留,其他的语义角色统一作为一类语义角色进行处理;A0、A1、A2均为公开的语义角色标识;
3)谓词相似度计算:在语义角色分类基础上,针对多谓词句子,根据谓词之间的相似度的大小对句子对进行谓词的配对,得到谓词匹配对,分别针对多个谓词匹配对进行语义角色的计算,得到语义角色之间的相似计算值;
4)基于语义角色的句子相似度计算:根据语义角色之间相似度计算值将一个句子的多个谓词中每一个谓词的多个语义角色进行语义搭配,计算语义角色的相似度,即转化为谓词之间以及相同语义角色之间的相似度计算;
5)句子相似度计算:将深度语义模型计算出的相似度和基于语义角色计算出的相似度两部分进行线性组合作为句子的最终相似度。
深度语义模型模型包括词哈希层、隐藏层以及输出层三部分,各个层的函数如下所示:
l1=W1x(1)
li=f(Wili-1+bi),i=2,...,N-1(2)
y=f(WNlN-1+bN)(3)
其中,x为输入向量,y为输出向量,li,i=1,...,N-1为隐藏层的输出,Wi表示第i权重,bi表示第i个偏置,f(*)表示tanh激活函数;
由词哈希层生成的特征向量通过隐藏层进行投影,并在输出层形成语义特征向量;
在获取了每个句子的语义特征向量之后,利用余弦相似度来度量两个句子之间的语义相似性。
谓词配对方法如下:
通过DSSM模型进行计算句子A中第i个谓词和句子B中第j个谓词之间的相似度为Sij,得到两个句子谓词之间两两之间的相似度矩阵N:
其中n、m分别为两个句子中谓词的个数;
谓词配对的具体算法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710876254.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:术语识别方法及装置
- 下一篇:结合短语结构树的语义角色识别方法