[发明专利]一种基于语义依存树的答案抽取方法有效
| 申请号: | 201810239159.7 | 申请日: | 2018-03-22 |
| 公开(公告)号: | CN108595413B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 周蕾;史维峰 | 申请(专利权)人: | 西北大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06F40/289;G06F16/332;G06F16/951;G06F16/9532 |
| 代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李婷;周春霞 |
| 地址: | 710069 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 语义 依存 答案 抽取 方法 | ||
本发明公开了一种基于语义依存树的答案抽取方法,该方法在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
技术领域
本发明属于自动问答(QA)领域,涉及一种基于语义依存树的答案抽取方法。
背景技术
自动问答系统作为一种新型的搜索引擎,为用户返回精确、简洁的答案,其处理流程为三个模块:问题解析,信息检索,答案抽取。其中,答案抽取算法是答案抽取模块的核心研究问题,算法性能会最直接的影响问答系统用户体验。
答案抽取算法的基本流程是将信息检索模块的结果——排序的段落,作为输入,通过计算分析,选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案,返回给用户,而不仅仅满足于提供一个含有答案的网页链接。因此,答案抽取模块的本质即为计算候选答案句和查询句的相似度。
常见的答案抽取算法主要有三种:基于模式匹配的算法,该算法的实现无需关心句子的语法语义信息,通过预先定义的答案和问句之间的模式,匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现,通过人工总结模式匹配的方式需要耗费大量的精力和时间,需手工编辑抽取规则,总结存在的模式,但准确率要更高。通过机器学习进行模式匹配的方式,依赖于标注语料,通过语料总结问句和答案的共现短语或结构,自动学习,进行结构提取得到模式,进行模式匹配。基于向量空间模型的算法,该算法框架清晰,实现简单且效果较好,被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中,通过VSM计算各个候选答案和问句之间的相似度,对候选答案进行排序,得到最可能的答案。向量空间模型的计算,假设各个特征词相互独立,虽然在一定程度上简化了计算量,但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息,进行相似度的计算,将相似度作为句法匹配度,对候选答案排序,并返回匹配度最高的答案。
基于语法结构的算法相比于其他算法,通过语义依存分析来进行语义深层理解,算法性能更好,其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中,虽然得到了更全面的语义信息,但计算异常复杂,没有考虑词频、句法结构、关键词之间的关联等特征,往往不能取得良好的效果。
发明内容
基于上述现有技术中存在的问题,本发明的目的在于,提供一种基于语义依存树的答案抽取方法,该方法能够大大降低计算复杂度的同时,且提高选取问句的最佳答案的准确率。
为了实现上述目的,本发明采用如下技术方案:
一种基于语义依存树的答案抽取方法,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810239159.7/2.html,转载请声明来源钻瓜专利网。





