[发明专利]一种基于多头注意力机制和动态迭代的机器阅读理解方法在审
申请号: | 201811365160.0 | 申请日: | 2018-11-16 |
公开(公告)号: | CN109492227A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 李丽双;张星熠;周安桥;周瑜辉 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;刘秋彤 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态迭代 阅读 构建 注意力机制 注意力 多头 神经网络模型 循环神经网络 自然语言处理 解码器 答案 模型构建 问题编码 预测 文本 输出 探索 | ||
本发明提供了一种基于多头注意力机制和动态迭代的机器阅读理解方法,属于自然语言处理领域。机器阅读理解模型构建方法如下:构建文章和问题编码层;构建基于双向注意力流的循环神经网络;构建自注意力层以及基于动态迭代解码器预测答案输出。本发明方法可以针对机器阅读理解任务文本中的问题进行答案预测;本发明建立了一个新的端到端的神经网络模型,为机器阅读理解任务的探索提供了一种新思路。
技术领域
本发明属于机器阅读理解领域,涉及一种对文章和问题进行编码,再利用双向注意力流、自注意力层和动态迭代解码器预测答案输出的方法。具体是指构建文章问题编码层、构建基于双向注意力流的循环神经网络、构建自注意力层和基于动态迭代解码器预测答案输出。
背景技术
问题回答型阅读理解任务的主要形式是给定一定词汇量的短文和基于此短文的问题,并将答案限制为原文中的一段文本片段,需要在充分理解原文的基础上,通过一定形式的逻辑推断预测问题的答案。目前该领域的主流模型主要有Match-LSTM、BiDAF和R-Net。
Wang和Jiang提出的Match-LSTM(Shuohang Wang and Jing Jiang.2017.Machinecomprehension using match-lstm and answer pointer.In Proceedings of ICLR)是较早在SQuAD数据集上进行测试的端到端的神经网络模型,使用单向LSTM进行编码,并将每个词关于问题的注意力分布和该词表示同时输入另一个LSTM,最后利用指针网络预测答案。Match-LSTM作为早期在SQuAD数据集上进行测试的模型,为后续优秀模型的设计提供了思路,但也存在诸多问题:模型仅计算了文章词向量对问题的单向注意力,损失了大量语义信息,在答案较长时表现不佳,精确匹配结果只有30%左右。
针对Match-LSTM中仅计算了单向注意力的问题,BiDAF模型(Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and Hananneh Hajishirzi.2017.Bidirectionalattention flow for machine comprehension.In Proceedings of ICLR)引入了双向注意力机制,即进行从文章到问题和从问题到文章两种注意力计算,并通过双向LSTM进行语义信息的聚合。BiDAF在SQuAD 1.1数据集评测中取得了优异的结果,但仍存在问题:没有类似自匹配的过程,无法很好地获取上下文的依赖关系。
为强化文章内部的信息交互,R-Net模型(Microsoft Research Asia.2017.R-Net:Machine reading comprehension with self-matching networks.In Proceedingsof ACL)引入了自匹配网络。R-Net通过自注意力机制捕捉原文内部各词之间的交互信息,同时利用门控机制更好地提取和文章有关的问题信息。R-Net在SQuAD 1.1数据集评测中取得了接近人类的表现,但也存在一些问题:(1)BiDAF模型和R-Net模型均采用指针网络一次性预测答案位置,不一定能获得全局最优解。(2)R-Net没有类似双向注意流的机制,不能充分融合文章和问题的语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811365160.0/2.html,转载请声明来源钻瓜专利网。