[发明专利]基于深度学习的机器阅读理解数据集构建以及评估方法有效
申请号: | 201910375360.2 | 申请日: | 2019-05-07 |
公开(公告)号: | CN110162684B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 王羽;葛唯益;姜晓夏 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/332 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 机器 阅读 理解 数据 构建 以及 评估 方法 | ||
本发明公开了一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括以下步骤:阶段1、原始数据集构建;阶段2、角色分配及标注审核;阶段3、数据集测试评估。本发明解决了在特定领域中基于深度学习的机器阅读理解缺乏数据集的问题,并且能够有效提高算法性能,更加贴近实用。经过本发明提供的数据集进行训练后可以让机器阅读理解文本,旨在颠覆以往特定领域依赖人工搜索和总结提炼答案的模式,大幅提升关键信息的获取效率。本发明能够通过高效以及可信的方式对数据集进行标注,保证数据集的正确性,适用于特定领域的机器阅读理解。
技术领域
本发明涉及数据集标注以及评估方法,尤其涉及一种基于深度学习的机器阅读理解数据集构建以及评估方法。
背景技术
一个机器阅读理解领域内的数据集构建包含数据集标注以及数据集评估。对数据集的标注主要就是对单篇以及多篇候选文档中,通过人工提问的方式,在这些文档中标注出提问的答案。对数据集的评估主要是依靠人为抽样进行评估。
目前,在机器阅读领域最具权威性的数据集为美国斯坦福大学构建的SQUAD1.0以及2.0阅读理解数据集。这类数据集主要是针对单篇文档进行提问,涉及的答案内容均能够在原文中找到。这类数据集的构建主要是通过人工标注单篇文档的方式进行构建且均为英文。
然后,我国在基于深度学习的机器阅读数据集构建领域也是通过传统的互联网众包进行人工标注的方式对单篇文档进行标注,涉及的内容多为“完形填空”式机器阅读理解。这种数据集构建方法不能适应大数据时代对于机器阅读理解技术的要求,迫切需要从单文档“完形填空”式阅读理解向多文档复杂逻辑问答式进行转变,综合运用海量互联网新闻中全球海量信息,进行基于深度学习的机器阅读理解数据集构建以及评估。
发明内容
发明目的:为了克服现有技术中基于单文档的机器阅读理解构建存在不全面不符合实际需求的缺陷,本发明的目的是提供一种基于深度学习的机器阅读理解数据集构建以及评估方法。
技术方案:一种基于深度学习的机器阅读理解数据集构建以及评估方法,包括如下步骤:
阶段1、原始数据集构建;
阶段2、角色分配及标注审核;
阶段3、数据集测试评估。
进一步的,所述阶段1具体包括如下内容:
步骤(2.1)、获取种子网站上所有的原始网页;
步骤(2.2)、对原始网页过滤掉不符合要求的内容,仅保留符合要求的文本数据,构建基础文本语料库;所述不符合要求的内容包括有乱码、非中英文、广告以及非目标领域政治、经济、军事类的文本,所述符合要求的文本数据包括政治、经济、军事类目标领域的文本数据;
步骤(2.3)、对基础文本语料库中的所有文本数据,处理成统一格式的XML文件,导入到数据库中;
步骤(2.4)、根据数据库中的文本数据,建立关键词索引,并构建搜索引擎;
步骤(2.5)、导入用户需求问题集,根据用户的问题,通过搜索引擎返回的文档,整理成为机器阅读理解原始数据集。
进一步的,所述阶段2具体包括如下内容:
步骤(3.1)、分配阅读理解数据集标注员角色,该角色的任务为针对原始数据集标注问题-答案对;所述标注员角色的个数为:其中,N表示需要标注的文章总数量,Time表示标注任务要求完成的天数,n表示每个人每天能够标注的个数,α表示标注人员效率值。
步骤(3.2)、分配阅读理解数据集审核员角色,该角色的任务为针对标注员所标注的问题-答案对进行审核;
步骤(3.3)分配阅读理解数据集终审员角色,该角色的任务为针对步骤(3.2)审核通过的内容进行最终审核。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910375360.2/2.html,转载请声明来源钻瓜专利网。