[发明专利]一种多粒度答案排序的多文档机器阅读理解方法有效
申请号: | 201910893027.0 | 申请日: | 2019-09-20 |
公开(公告)号: | CN110647629B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 史树敏;刘宏玉;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 粒度 答案 排序 文档 机器 阅读 理解 方法 | ||
1.一种多粒度答案排序的多文档机器阅读理解方法,其特征在于:所述理解方法中涉及的定义如下:
定义1:文档滑动窗口:是指为了满足基于预训练的深度学习模型的输入长度限制,将文档拆分成固定长度的文本片段所使用的拆分策略;
定义2:输入文本序列:是指将问题和文档拆分后的问题-文本片段序列通过预定义符号[CLS]和[SEP]进行拼接后的序列;
其中,拼接后的序列为“[CLS]问题序列[SEP]文本片段序列[SEP]”,[CLS]是输入文本序列语义符号,[SEP]是问题序列和文本片段序列的分割符号;
定义3:单词特征向量:是指将输入文本序列向量化所使用的预训练向量,包括语义向量、位置向量以及分段向量;
其中,语义向量是指当前单词的语义特征信息,位置向量是指当前单词在文本序列的位置特征信息,分段向量是指当前单词来自于问题或者文档的分段特征信息;
定义4:多头自注意力网络模型:是指获取问题和文档上下文语义信息的预训练网络模型;
定义5:文档答案标签:指的是在问题-多文档语料中,其中包含正确答案的文档中标注答案所在文档的区间,以标注答案开始单词和结尾单词位置的方式标注正确答案;
定义6:问题-多文档语料:是指多文档机器阅读理解的问题和多个文档;对于多文档机器阅读理解任务,每一个问题都有问题相关的多个候选文档与之对应;
定义7:ROUGEL值:指的是机器阅读理解领域通用的答案质量评价指标,ROUGEL值越大,代表预测答案质量越好;
所述多粒度答案排序的多文档机器阅读理解方法,包括文本编码和答案预测两部分,具体包括如下步骤:
步骤一、获取问题及该问题对应的多个文档;
步骤二、利用一个预先定义的文档滑动窗口,将步骤一中获取的每个文档拆分成固定长度的文本片段,并将每一个文本片段逐一与步骤一获取的问题进行拼接构成多个问题-文本片段序列;
其中,文档滑动窗口,见定义1;
步骤三、对步骤二构成的每一个问题-文本片段序列进行分词处理,得到拼接后的问题-文本片段序列,即输入文本序列;
其中,输入文本序列,见定义2,具体为:[CLS]问题序列[SEP]文本片段序列[SEP];
其中,[CLS]是输入文本序列的语义符号,[SEP]是问题序列和文本片段序列的分割符号;
步骤四、对输入文本序列进行向量化表示,将输入文本序列中每个单词用预训练的单词特征向量表示,得到输入文本向量;
其中,单词特征向量见定义3,具体为:输入文本序列中每个单词的语义表示、位置表示、分段表示的加和;
步骤五、将步骤四得到的输入文本向量作为多头自注意力网络模型的输入,并基于该多头自注意力网络模型获取输入文本向量中融合上下文信息的每个单词所对应的向量表示,输出文本语义向量;
其中,多头自注意力网络模型,见定义4;
步骤五,具体包括如下子步骤:
步骤5.1计算文本语义向量的过程是将输入文本向量通过线性项映射到不同语义空间的语义向量,用于捕捉不同维度的语义信息;
其中,输入文本向量的线性项映射,具体通过(1)实现:
Q′i=QWiQ,K′i=KWiK,V′i=VWiV (1)
其中,Q,K,V为后续self-attention操作所需要的查询,键和值向量,均为步骤四中输出的输入文本向量;
其中,WiQ,WiK,WiV为映射到第i个语义空间的线性项,Q′i,K′i,V′i为第i个语义空间的语义向量;
步骤5.2在不同语义空间的语义向量上进行self-attention操作,输出不同语义空间的文本语义向量;
其中,不同语义空间的语义向量的self-attention操作,具体通过(2)实现:
其中,softmax为归一化函数,T为向量转置操作,dk为键向量即步骤四中输出的输入文本向量的维度,headi为第i个语义空间的输入文本序列的文本语义向量;
步骤5.3将不同语义空间的文本语义向量拼接,将拼接后的向量通过线性项映射回原语义空间,称为输出文本语义向量,记为C;
其中,不同语义空间的文本语义向量的拼接和线性项映射,具体通过(3)实现:
C=Concat(head1,···,head12)W (3)
其中,Concat为向量拼接操作,W为不同语义空间映射回初始语义空间的线性项,C为步骤五中多头自注意力网络模型输出的文本语义向量;
至此,从步骤一到步骤五完成了文本编码,得到文本语义向量;
步骤六、基于文本语义向量和文档答案标签训练多文档机器阅读理解答案预测模型进行参数更新,参数更新后用(4)计算步骤三输出的输入文本序列中每个单词为所述问题对应答案的开始位置和结尾位置的概率,再将概率按照文本长度进行softmax归一化处理;
其中,文本语义向量为步骤五的输出;文档答案标签,见定义5;
其中,训练多文档机器阅读理解答案预测模型进行参数更新,具体通过(4)和(5)实现:
ps=softma(WsC),pe=softmax(WeC) (4)
其中,Ws,We为答案预测模型的参数,ps,pe为预测输入文本序列中每个单词为所述问题对应答案的开始位置和结尾位置的概率,LANS为答案预测模型的损失函数,为文档答案标签的答案开始位置和结尾位置,N为样本数量,log为以e为底的对数函数;
步骤七、基于文本语义向量和文档答案标签训练多文档机器阅读理解答案补全模型进行参数更新,对答案结尾位置赋予答案补全权重实现答案补全,参数更新后用(6)计算步骤三输出的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率,再将概率按照文本长度进行softmax归一化处理;
其中,训练多文档机器阅读理解答案补全模型进行参数更新,具体通过(6)和(7)实现:
p′s=softmax(Ws′C),p′e=softmax(We′C) (6)
其中,Ws′,We′为答案补全模型的参数,p′s,p′e为预测输入文本序列中每个单词为所述问题对应答案的开始位置和结尾位置的概率,L′ANS为答案补全模型的损失函数,α为对答案结尾位置赋予的答案补全权重;
步骤八、利用步骤六和步骤七中计算的输入文本序列中每个单词所述问题对应答案的开始位置和结尾位置的概率求和得到联合分布概率,再将联合分布概率最大开始位置和结尾位置构成的文本区间确定为所述问题的候选答案;再按照文档数量对联合分布概率进行softmax归一化,输出每个候选答案的答案得分,每个文档只保留答案得分最高的候选答案;
步骤九、利用统计信息或浅层语义信息对候选答案进行粗排序,步骤一中问题对应的多个文档是通过搜索引擎获取的,为搜索引擎返回顺序靠前的文档赋予更高的概率,即粗排序概率,粗排序概率通过问题-多文档语料获得;
其中,问题-多文档语料,见定义6;
步骤十、利用深度语义信息对候选答案进行细排序,基于步骤五输出的文本语义向量,获取步骤三输出的输入文本序列语义符号[CLS]对应的语义向量和文档答案标签训练多文档机器阅读理解答案细排序模型进行参数更新,参数更新后用(8)计算输入文本序列与问题的相关性概率,即细排序概率;
其中,训练多文档机器阅读理解答案细排序模型进行参数更新,具体通过(8)和(9)实现:
cp=softmax(WcC[CLS]) (8)
其中,Wc为答案细排序模型的参数,C[CLS]为步骤五中获得文本语义向量中[CLS]对应的语义向量,cp为细排序概率,LDOC为答案细排序模型的损失函数,K为文档拆分后的文本片段数量;
步骤十一、利用步骤八、步骤九、步骤十输出候选答案的答案得分、粗排序得分和细排序得分相乘计算候选答案多粒度排序得分,候选答案中多粒度排序得分最大的候选答案确定为所述问题对应的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910893027.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化标检方法及系统
- 下一篇:检测同款商品的方法及装置