[发明专利]一种多粒度答案排序的多文档机器阅读理解方法有效

专利信息
申请号: 201910893027.0 申请日: 2019-09-20
公开(公告)号: CN110647629B 公开(公告)日: 2021-11-02
发明(设计)人: 史树敏;刘宏玉;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种多粒度答案排序的多文档机器阅读理解方法,属于机器阅读理解应用技术领域。本方法基于预训练的深度学习模型,通过滑动窗口拆分文档为文本片段与问题拼接,通过融合统计信息、浅层语义信息、深层语义信息和答案结尾词信息的多粒度答案排序来对多个文档生成的多个候选答案进行排序,充分利用不同粒度的语义信息来捕捉问题与多个候选答案的相关性。所述方法利用基于预训练的深度学习模型提高了传统机器阅读理解模型的文本表示能力和泛化能力,同时解决了现有模型对于多文档场景的输入长度受限的缺点,同时从不同粒度建模问题和答案的相关性,提升多文档机器阅读理解的答案质量。
搜索关键词: 一种 粒度 答案 排序 文档 机器 阅读 理解 方法
【主权项】:
1.一种多粒度答案排序的多文档机器阅读理解方法,其特征在于:所述理解方法中涉及的定义如下:/n定义1:文档滑动窗口:是指为了满足基于预训练的深度学习模型的输入长度限制,将文档拆分成固定长度的文本片段所使用的拆分策略;/n定义2:输入文本序列:是指将问题和文档拆分后的问题-文本片段序列通过预定义符号[CLS]和[SEP]进行拼接后的序列;/n其中,拼接后的序列为“[CLS]问题序列[SEP]文本片段序列[SEP]”,[CLS]是输入文本序列语义符号,[SEP]是问题序列和文本片段序列的分割符号;/n定义3:单词特征向量:是指将输入文本序列向量化所使用的预训练向量,包括语义向量、位置向量以及分段向量;/n其中,语义向量是指当前单词的语义特征信息,位置向量是指当前单词在文本序列的位置特征信息,分段向量是指当前单词来自于问题或者文档的分段特征信息;/n定义4:多头自注意力网络模型:是指获取问题和文档上下文语义信息的预训练网络模型;/n定义5:文档答案标签:指的是在问题-多文档语料中,其中包含正确答案的文档中标注答案所在文档的区间,以标注答案开始单词和结尾单词位置的方式标注正确答案;/n定义6:问题-多文档语料:是指多文档机器阅读理解的问题和多个文档;对于多文档机器阅读理解任务,每一个问题都有问题相关的多个候选文档与之对应;/n定义7:ROUGEL值:指的是机器阅读理解领域通用的答案质量评价指标,ROUGEL值越大,代表预测答案质量越好;/n所述多粒度答案排序的多文档机器阅读理解方法,包括文本编码和答案预测两部分,具体包括如下步骤:/n步骤一、获取问题及该问题对应的多个文档;/n步骤二、利用一个预先定义的文档滑动窗口,将步骤一中获取的每个文档拆分成固定长度的文本片段,并将每一个文本片段逐一与步骤一获取的问题进行拼接构成多个问题-文本片段序列;/n其中,文档滑动窗口,见定义1;/n步骤三、对步骤二构成的每一个问题-文本片段序列进行分词处理,得到拼接后的问题-文本片段序列,即输入文本序列;/n其中,输入文本序列,见定义2,具体为:[CLS]问题序列[SEP]文本片段序列[SEP];/n其中,[CLS]是输入文本序列的语义符号,[SEP]是问题序列和文本片段序列的分割符号;/n步骤四、对输入文本序列进行向量化表示,将输入文本序列中每个单词用预训练的单词特征向量表示,得到输入文本向量;/n其中,单词特征向量见定义3,具体为:输入文本序列中每个单词的语义表示、位置表示、分段表示的加和;/n步骤五、将步骤四得到的输入文本向量作为多头自注意力网络模型的输入,并基于该多头自注意力网络模型获取输入文本向量中融合上下文信息的每个单词所对应的向量表示,输出文本语义向量;/n其中,多头自注意力网络模型,见定义4;/n步骤五,具体包括如下子步骤:/n步骤5.1计算文本语义向量的过程是将输入文本向量通过线性项映射到不同语义空间的语义向量,用于捕捉不同维度的语义信息;/n其中,输入文本向量的线性项映射,具体通过(1)实现:/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910893027.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top