[发明专利]一种基于段落内部推理和联合问题答案匹配的模型方法有效
| 申请号: | 201910073728.X | 申请日: | 2019-01-25 |
| 公开(公告)号: | CN109947912B | 公开(公告)日: | 2020-06-23 |
| 发明(设计)人: | 琚生根;孙界平;夏欣;王霞 | 申请(专利权)人: | 四川大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N5/04;G06N3/04;G06N3/08;G06F40/253;G06F40/216;G06F40/295 |
| 代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
| 地址: | 610041 四川*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于段落内部推理和联合问题答案匹配的阅读理解模型方法,包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案;S2:实验,本发明提出的模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理,本模型在正确率上相比基线神经网络模型,Stanford AR和GA Reader提高了9%‑10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果。 | ||
| 搜索关键词: | 一种 基于 段落 内部 推理 联合 问题 答案 匹配 模型 方法 | ||
【主权项】:
1.一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;B:编码层,步骤如下:a:将词嵌入向量和完全匹配特征输入Highway Network,分别得到段落、问题和候选答案序列的表达
其中![]()
其中
其中
b:对段落进行k={r1,r2,L,rk}次缩放操作,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上应用两次BiLSTM层和最大池化层,以捕获共同匹配的句子级和篇章级表达;E:输出层,对每个候选答案,它最终交互表达为
S2:实验,具体步骤如下:A:采用SemEval‑2018Task 11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:a:Sliding Window,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;c:Stanford Attentive Reader,采用一种端到端的神经网络方法,在CNN/Dail Maily数据集上取得了很好的效果,首次提出问题相关段落表达,即问题相对段落注意力分数,双线性函数的加权平均表达,然后同样采用双线性函数计算问题与答案的相似度,最后应用softmax得到每个答案的预测概率;d:Gated‑Attention Reader,通过注意力机制捕获问题与段落之间的交互,并采用多层推理迭代地关注文本与问题最相关的部分;e:TriAN,采用段落与答案、段落与问题、问题与答案三种注意力来建模交互,并且加入词性标注和命名实体识别,基于ConceptNet的关系特征,基于Wikipedia的词频特征及共现特征,本文与其单模型进行对比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910073728.X/,转载请声明来源钻瓜专利网。
- 上一篇:自然机器会话方法和设备
- 下一篇:一种黑灰产推广的关键词查找方法





