[发明专利]一种阅读理解问题的自动生成方法有效
申请号: | 202211014514.3 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115080723B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 徐坚;甘健侯;王俊;吴迪;周菊香;张利明;姚贤明 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F40/284;G06F40/289 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 阅读 理解 问题 自动 生成 方法 | ||
本发明提出一种阅读理解问题的自动生成方法,属于自然语言处理的问题生成领域,该方法包括:通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记,重建了一个QG数据集RACE4QG;构建一个端到端的QG模型,QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入;编码器的隐藏状态通过门控自注意力机制,得到最终的通道‑答案表示,并输入解码器;进行问题生成模型的解码。本发明针对英语教师手动生成阅读理解问题时周期过长、耗时费力的弊端,采用深度神经网络的方法自动生成阅读理解问题。实验结果表明,本发明在机器自动评价和人工评价方面都优于传统的方法。
技术领域
本发明涉及一种阅读理解问题的自动生成方法,属于自然语言处理的问题生成技术领域。
背景技术
自动问题生成(Question Generation, QG)对于英语课程的阅读理解教学具有重要意义,它能辅助英语课程的教师根据最新的阅读材料快速自动地生成问题,使课堂教学具有新颖性和主题性,教学中还能根据学生群体的特点来开展个性化教学。QG任务的目标是基于给定的上下文及答案来生成问题,近年来吸引了大量研究者的兴趣。最先进的QG模型通常采用基于深度神经网络的问题生成策略,其中神经网络是基于sequence-to-sequence的骨干进行训练。然而,由于QG任务的艰巨性和教育领域的复杂性,目前缺乏面向教育领域的端到端问题生成模型研究。
为了解决这一挑战,本发明通过对RACE数据集应用一种新的答案标记方法和数据过滤策略,重建了一个专门的问题生成数据集RACE4QG,以训练一个新的端到端问题生成模型。在该模型中,其编码器以单词嵌入、答案标记和图注意力网络(Graph AttentionNetworks, GAT)生成的向量的拼接作为输入,编码器的隐藏状态通过门控自注意力操作,得到最终的通道-答案表示,并将被输入解码器,解码器使用pointer-generator机制来逐一生成问题的单词。实验结果表明,本发明的模型在自动指标和人工评价方面都优于传统的问题生成模型。本发明的模型在BLEU-4、ROUGE-L和METEOR等评价指标上分别提高了3.73、1.98和1.59。
发明内容
本发明要解决的技术问题是:本发明提供一种面向教育领域的端到端的阅读理解问题的自动生成方法,解决现有问题生成方法难以生成阅读理解问题的局限性,能生成精度更好的阅读理解问题。
本发明的技术方案是:一种阅读理解问题的自动生成方法,所述方法的具体步骤如下:
Step1:重构用于训练问题生成模型的数据集:通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记,重建了一个QG数据集RACE4QG;
Step1.1:对候选数据集RACE作适应性分析及重构。在RACE中,每个样本是一个四元组(段落,答案,问题,干扰项),其中干扰项是错误的答案。为了适应问题生成任务,需要对RACE进行调整,将RACE中与问题无关的信息过滤后,获得RACE4QG数据集;
Step 1.2:对前述的数据集RACE4QG进行答案标注,以将答案信息注入数据集形成新的RACE4QG数据集,训练出更好的问题生成模型。由于RACE是一个问答数据集,它的问题和答案是从实际的英语考试中获取,答案中的单词分散在上下文中,它不同于一般的问答数据集(如SQuAD),其答案单词在文章中的分布是连续的。针对此问题,传统的答案标记方法在本任务中功能失调。为了将与答案相关的信息整合到上下文嵌入表示中,本发明利用一种新的答案标记方法来标记一个段落中的答案单词;具体来讲,给定一个答案,本发明首先将它进行分词,删除停用词,得到一个单词集合X。如果文章中某单词属于集合X,则标记为A,其他单词标记为O。
Step 2:进行问题生成模型的编码:构建一个端到端的QG模型,QG模型中编码器的门控制循环单元(Gated Recurent Unit, GRU)以单词嵌入、答案标记和GAT生成的向量的拼接作为输入;编码器的隐藏状态通过门控自注意力操作,得到最终的通道-答案表示,并输入解码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211014514.3/2.html,转载请声明来源钻瓜专利网。