[发明专利]基于依存句法的相似度计算模型和系统及搭建系统的方法在审
申请号: | 202011264308.9 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364132A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 陈文亮;张鹏举 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/335;G06F40/279;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 张荣 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 依存 句法 相似 计算 模型 系统 搭建 方法 | ||
本发明涉及一种基于依存句法的相似度计算模型和系统及搭建系统的方法,包括:问句语义编码,所述问句语义编码包括最短依存路径句法编码、基于句法树的表达、以及预训练词向量语义编码;问句对应的候选查询图的语义编码,用于将答案查询图经过预训练词向量语义编码得到查询图语义编码;将所述预训练词向量语义编码、最短依存路径句法编码以及基于句法树的表达进行拼接得到问句依存句法;对查询图语义编码与问句依存句法进行互注意力机制,进行信息交互,再通过相似度计算,得到语义相似度。本发明有利于提升系统的性能。
技术领域
本发明涉知识图谱问答系统的技术领域,尤其是指一种基于依存句法的相似度计算模型和系统及搭建系统的方法。
背景技术
知识图谱问答系统(KBQA)的实现方法主要分为两大类:基于检索的方法和基于语义解析的方法。
所述基于检索的方法为:首先对问句进行实体识别、实体链接处理,这部分现阶段用的比较多的就是序列标注模型。通过这两步,就会得到问句的主题实体候选,接下来就开始确定主题实体对应的候选谓词,这部分用的比较多的就是相似度模型和问句分类模型。但由于中文关系比较多切较为复杂,所以分类模型的效果一般没有相似度模型好。在完成正确的谓词寻找后,再结合主题实体去知识库中检索答案,完成问答。在进行主题实体生成部分,也可以先对主题实体排序,然后在主题实体的谓词候选中去完成正确谓词的确定。不过这样做会导致错误传播,假使主题实体确定部分出错,那么错误就会影响到最终答案。基于检索的方法目前的最大难题是:实体链接的实体消歧问题以及关系谓词的确定问题。实体消歧是指:同一个字符串(″张伟″)可能会对应知识图谱中的多个实体(如:村干部″张伟″、某公司CEO″张伟″等等)。关系谓词确定是指:给定一个问句确定该问句的关系谓词。由于关系谓词的表达多种多样,要将其准确的匹配到知识图谱中的关系边,并不是件容易的事情。
所述基于语义解析的方法为:首先对问题进行语义解析,得到问题语义信息;然后在对这些语义信息进行结构化语言转化(类似于转化成sparql语句),完成转化后,通过结构化语言查找到候选答案,从而完成整个查询图。有了问句对应的候选查询图后,就可以对其进行序列化编码。同时对问题进行编码,然后通过相似度匹配模型对二者进行相似度计算,根据计算得到的语义相似度得分,完成最优查询图的选取,最终就可以在最优查询图中找到问句的答案。基于语义解析的方法目前最大的难题是:如何对问句进行深层次的解析以挖掘出更多的信息。如果不能够挖掘出足够的信息,那么这种方法实现的系统性能将会远低于信息抽取方法所实现的系统。
总体来说,采用基于语义解析的方法产生的效果要优于采用所述基于检索的方法所产生的效果。所述基于语义解析的方法中,较为常见的是基于深度学习的相似度匹配方法,目前现阶段采用最多的为深层结构语义模型(DSSM)。该模型由基础的embedding层(将输入的字或者词转化成高纬度的向量表示)、双向LSTM层(将每分词向量表示句子转化为结合时序的语义向量)或者CNN层(提取整个句子语义信息最具代表性的部分)、池化层(最大化句子的语义特征)和相似度函数计算层(用于最终计算两个文本间的相似度得分)构成。如图1为基于双向LSTM构建的DSSM。对于知识图谱问答来说,将问句与答案路径分别进行语义编码,如图1的左右两边。按照模型的方法,进行Cosine相似度计算,就可以计算出每个答案路径候选与问句的得分,从而选出TOP1,就可以完成最优答案的选取。
但是上述存在以下问题:基于神经网络的相似度模型将文本转化为编码语义向量的方式太过单一,普遍只采用RNN(LSTM/GRU)神经网络对文本进行语义编码,这样得到的语义向量偏向于时序方面,而在一些具体的任务中,往往需要更加丰富的信息,因此不利于提升知识图谱问答的性能;另外,目前为止,无人能够对神经网络作出非常严谨和系统的理论证明。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中知识图谱问答的性能差的问题,从而提供一种有利于提高知识图谱问答性能的基于依存句法的相似度计算模型和系统及搭建系统的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011264308.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据写入方法和装置
- 下一篇:一种秸秆还田智能化填埋设备