[发明专利]一种基于文本摘要的非事实类问答答案选择方法及系统有效
申请号: | 201810428163.8 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108681574B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 马荣强;张健;李淼;陈雷;高会议 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/34;G06F40/289;G06F40/30;G06F40/211 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 奚华保 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 摘要 事实 问答 答案 选择 方法 系统 | ||
本发明公开了一种基于文本摘要的非事实类问答答案选择方法及系统,属于智能检索技术领域,包括抽取所述待选择答案文本的首句和尾句;利用文本摘要模型TextRank对待选择答案文本除首句和尾句之外剩余的文本进行摘要抽取,得到初步文本摘要;将首句、初步文本摘要以及尾句依次组合,得到待选择的答案文本摘要;将问句和待选择的答案文本摘要作为神经网络语义表示模型的输入,得到问句和待选择的答案文本摘要的语义相关程度;将与问句语义相关程度最高的答案文本摘要作为答案返回。本发明在进行答案摘要抽取时,提取答案文本的首句和尾句作为摘要的组成部分,保证了提取到的文本摘要的主题完整性,从而提高了答案选择的准确率。
技术领域
本发明涉及智能检索技术领域,特别涉及一种基于文本摘要的非事实类问答答案选择方法及系统。
背景技术
目前,问答系统已成为自然语言处理领域一项重要的研究课题,被用于信息获取的多个领域,比如信息检索、专家系统、自动问答以及人机自然语言交互等。问答系统与信息检索相比不同之处在于其不需要用户自己寻找答案,而是直接返回答案。
根据问答系统不同的数据来源,分为三类问答系统:基于结构化数据的问答系统、基于自由文本的问答系统和基于问题答案对的问答系统。其中,基于问题答案对的问答系统的工作流程是用户提出问题后通过语意特征分析将与语义最匹配的答案返回,其数据主要来自网络社区问答。
早期对答案选择方法的研究一般基于传统语义特征提取,人工选取文本特征,然后利用高性能分类器进行训练,利用人工定义特征来进行语义表示的方法可解释性比较强,其特征的选取覆盖了整个数据集。选取的特征主要是从答案文本内容上体现出来的语句质量和问题答案与答案内容上的相关性。人工选取的特征一般包括单词的N元语言模型、句法结构和语法依存关系等。早期的研究者在进行答案选择方法的研究时,最常用的方法就是借助已有的自然语言处理工具对所要处理的文本进行分词、词性标注或句法分析后,训练基于人工定义特征的答案选择模型。
然而,非事实类问答中的答案文本形式具有多边性,且存在噪声信息,利用一般的语言规则难以匹配到正确答案。故,针对非事实类问答系统的答案选择任务,目前的主流方法是基于标准文本利用有监督的机器学习方法对文本的语义信息进行挖掘,比如:
利用SVM模型来对单词级别的匹配特征进行训练,如关键词匹配特征、短语级别的非语义类特征,还有一些基于命名实体的特征等。还有的研究者通过自然语言处理工具来对文本的特征进行提取,从而开发了一系列与答案质量有关的词法特征包括是否包含标点、超链接、特殊词的数量、词性和命名实体特征和N元语言模型的频率等。采用句法树可以更好地捕捉到句子的局部结构化信息,基于句法树的答案选方法可以有效减少特征选择的工作量。利用句法和语义特征相结合的办法来进行答案选择,句法方面通过计算问题和答案的依存句法树之间的树编辑距离,而语义方面使用诸如实体类型、同义词等浅层语义特征。
其中,树编辑距离是计算从两棵树转换过程中所需要的操作(插入、删除和替换)的总耗散值,其计算过程与字符串的编辑距离类似,使用条件随机场(Conditional RandomFields,CRF)对问答中的序列进行标注,实用的特征包括树编辑距离和字符串编辑距离等。这是首次将社区问答的答案选择问题转换为了序列标注问题。除了句法树,还有一些研究者从语言模型和词向量的角度比较问题和答案文本的相关性,例如使用基于翻译的模型来比较问题与答案的相关程度,把问题和候选答案看做两种不同的语言。
基于传统语义特征提取的答案选择方法往往有很好的可解释性,通过人工选取的特征都可以找到其依据,容易使人理解。但是在利用此方法进行答案选择时,也会存在一些缺陷:一是,其依赖于一些与自然语言领域基础研究相关的工具包,这就使得所选取特征的效果依赖于基础研究的效果。特征提取的思想可能很有依据,但面对结构复杂的文本,无法取得想要的结果。二是,答案选择模型中提取的特征最终取决于人的选择,模型没有自学能力,导致了模型应用的局限性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810428163.8/2.html,转载请声明来源钻瓜专利网。