[发明专利]一种基于深度学习的开放域问答预测方法在审

申请号：	202011299830.0	申请日：	2020-11-19
公开（公告）号：	CN112417119A	公开（公告）日：	2021-02-26
发明（设计）人：	徐玉鹏;程帆;张冬梅	申请（专利权）人：	上海交通大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/289;G06N3/04
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	杨宏泰
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习开放问答预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于深度学习的开放域问答预测方法，该方法包括以下步骤：S1：获取维基百科训练语料并对其建立索引；S2：根据问题通过检索获得相关性最高的多篇文章，并切分成段落，最终输出多个得分最高的段落；S3：使用SQuAD数据集训练一个机器阅读理解模型；S4：以多个得分最高的段落以及问题作为输入，通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。与现有技术相比，本发明具有高效、精确、快速等优点。

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种基于深度学习的开放域问答预测方法。

背景技术

机器阅读理解(MRC)旨在教机器阅读和理解人类语言，这是自然语言理解(NLP)领域的长期目标，随着深度学习的蓬勃发展，机器阅读理解任务也取得了极大的突破。

类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题，除了维基百科，它还使用了知识库(knowledge base)，新闻以及图书等，但是这样的系统过度依赖冗余的信息来正确回答问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于深度学习的开放域问答预测方法，该方法包括以下步骤：

S1：获取维基百科训练语料并对其建立索引；

S2：根据问题通过检索获得相关性最高的多篇文章，并切分成段落，最终输出多个得分最高的段落；

S3：使用SQuAD数据集训练一个机器阅读理解模型；