[发明专利]基于图卷积网络的答案抽取方法、装置及相关组件在审
申请号: | 202011577396.8 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112632253A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 黄勇其;王伟;于翠翠;张兴 | 申请(专利权)人: | 润联软件系统(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/31;G06F40/211;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 武志峰 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 答案 抽取 方法 装置 相关 组件 | ||
本发明公开了基于图卷积网络的答案抽取方法、装置及相关组件,该方法包括:获取用户问题以及包含用户问题的文档;基于句法依存分析对文档构建图网络;利用图卷积网络,对文档与所述图网络进行融合,得到文档向量,以及对用户问题与所述图网络进行融合,得到问题向量;基于图卷积网络和注意力机制对文档向量和问题向量进行学习,以获取文档中的答案起始概率和答案终止概率;将答案起始概率和答案终止概率分别作为文档的起始索引和终止索引,并将起始索引和终止索引之间的文本作为用户问题的答案。本发明基于图卷积网络和句法依存分析对包含用户问题的文档构建图网络,并使图网络与用户问题和文档进行语义融合,从而提高答案抽取的准确率。
技术领域
本发明涉及自然语言处理技术领域,特别涉及基于图卷积网络的答案抽取方法、装置及相关组件。
背景技术
机器阅读理解任务(MRC)是指给定一篇文章,以及基于该文章的一个问题,通过机器从该文章中找到对应问题的答案。早期的MRC系统主要依赖规则及人工生成的数据集,这种方式由于数据集较小,因此很难推广到其他领域。在进入到机器学习时代后,将机器阅读理解任务定义为有监督学习任务,并将收集的数据进行人工标注,标注成段落、问题、答案三元组,并引入机器学习算法,通过加入丰富的语义特征集实现对训练数据的拟合,这种方法相比早期基于规则的方法有一定的提升,但提升程度相对有限,且会依赖于依存分析解析器、语义角色标注系统的性能。
随着深度学习的发展,以及较大规模的带标注数据集的涌现,如SQuAD数据集(一种问答数据集)、CNN/Daily mail数据集(一种有监督数据集)等,将深度神经网络引入到机器阅读理解任务,如Match-LSTM模型,该模型原先用于文本蕴含任务,后来加入Pointer-Net使之可以适用于阅读理解任务,该模型将问题看作是premise(前提)、把文章看作是hypotheis(假说),相当于带着问题去文章中寻找答案,并通过Pointer-Net模型(主要用于解决组合优化类问题)给出答案的区域。BiDAF模型是另一个较为典型的机器阅读理解模型,该模型引入了双流注意力机制,通过问题与上下文的双向注意力交互,得到问题感知的上下文表征,使得答案的抽取准确率得以提升。以上两个模型虽然都能在一定程度上进行答案抽取,但是也存在一些问题,如两个模型都使用了LSTM 网络,导致训练速度及预测速度比较慢。为了提高训练速度并进一步提高答案抽取准确率,QANet(一种问答架构)采用了卷积代替传统的RNN结构,并采用了多种技巧,使得训练速度和推断速度在不影响精度的情况下大幅提升。虽然QANet能提高训练速度,但是由于只使用了文本本身的特征,使得准确率提高不多,如果引入额外信息,对文本特征进行深层次刻画,则能进一步提高答案抽取的准确率。
发明内容
本发明实施例提供了一种基于图卷积网络的答案抽取方法、装置、计算机设备及存储介质,旨在提高答案抽取的准确率。
第一方面,本发明实施例提供了一种基于图卷积网络的答案抽取方法,包括:
获取用户问题以及包含所述用户问题的文档;
基于句法依存分析对所述文档构建图网络;
利用图卷积网络,对所述文档与所述图网络进行融合,得到文档向量,以及对所述用户问题与所述图网络进行融合,得到问题向量;
基于所述图卷积网络和注意力机制对所述文档向量和问题向量进行学习,以获取所述文档中的答案起始概率和答案终止概率;
将所述答案起始概率和答案终止概率分别作为所述文档的起始索引和终止索引,并将所述起始索引和终止索引之间的文本作为所述用户问题的答案。
第二方面,本发明实施例提供了一种基于图卷积网络的答案抽取装置,包括:
获取单元,用于获取用户问题以及包含所述用户问题的文档;
构建单元,用于基于句法依存分析对所述文档构建图网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润联软件系统(深圳)有限公司,未经润联软件系统(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011577396.8/2.html,转载请声明来源钻瓜专利网。