[发明专利]一种基于局部注意力机制记忆网络的问答方法及系统在审
申请号: | 201910559673.3 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110334195A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 黄仔琪;孙振起 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 上下文记忆 模块信息 句子 注意力机制 概率分布 记忆网络 提问 处理效率 模型信息 生成位置 线性门 有效地 多层 色散 答案 传递 引入 预测 保留 | ||
本发明提供一种基于局部注意力机制记忆网络的问答方法及系统,所述问答方法包括以下步骤:根据提问句子和上下文记忆模块信息生成位置信息;根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;根据计算出的相关概率分布得到预测答案。本发明选择只关注上下文记忆模块信息的一小部分,来计算其和提问句子之间的相关性信息,让系统更加关注有用的信息,提高处理效率。此外,本发明引入了线性门控单元,在多层模型信息传递的过程中,可以有效地降低梯度色散,同时还保留了非线性的能力,具有较好的适用性。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于局部注意力机制记忆网络的问答方法及系统。
背景技术
目前,端到端可训练记忆网络(MemN2N)在许多深层次学习领域里,特别是在基于模拟自然语言的推理问答(QA)任务中是非常有效的。然而,当它解决一些子任务,如基本归纳、路径查找和时间推理任务时,由于难以挖掘记忆模块和提问句子之间的有效信息,导致传统的记忆网络在这些任务上的效果并不理想。
图1是传统的单层结构的端到端可训练记忆网络(MemN2N)的示意图,在匹配得分操作部分使用的是全局注意力机制(global-attention),来计算上下文记忆模块向量mi和提问句子u之间的相关性信息,再经过Softmax层变换后,便可以得到上下文记忆模块向量mi和提问句子u之间的相关性概率分布p。
然而,这种传统模式在计算内存和查询的相关性时,由于需要考虑到记忆网络全局所有句子的查询,导致过程复杂,费用昂贵。
发明内容
本发明要解决的技术问题是提供一种基于局部注意力机制记忆网络的问答方法及系统,能够快速有效地获取提问句子和记忆网络中语境之间的相关性信息,从而较大幅度的提升记忆网络的性能。
为解决上述技术问题,本发明的实施例提供一种基于局部注意力机制记忆网络的问答方法,包括以下步骤:
S1、根据提问句子和上下文记忆模块信息生成位置信息;
S2、根据生成的位置信息,计算提问句子和上下文记忆模块信息之间的相关概率分布;
S3、根据计算出的相关概率分布得到预测答案。
优选地,所述步骤S1包括:
根据以下公式生成位置信息pu:
其中,S是上下文记忆模块的大小,pu∈[0,S];Wa、vp是记忆网络模型训练过程中学习到的参数;q是提问句子中的单词信息,δ是sigmoid激活函数。
优选地,所述步骤S2包括:
根据以下公式计算相关概率分布pi:
其中D是预设的上下文记忆模块的窗口尺寸。
优选地,所述问答方法还包括:
在多层结构的记忆网络模型的信息传递过程中,使用线性门控单元对每一层的传递信息进行降低梯度色散的处理。
优选地,所述线性门控单元根据以下公式对每一层的传递信息进行处理:
其中,W、V、b、c是记忆网络模型训练过程中学习到的参数,是矩阵点积,ok是第k层的输出,uk是第k层的提问句子。
本发明的实施例还提供一种基于局部注意力机制记忆网络的问答系统,所述问答系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910559673.3/2.html,转载请声明来源钻瓜专利网。