[发明专利]一种基于深度学习的开放域问答预测方法在审
申请号: | 202011299830.0 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112417119A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 徐玉鹏;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/289;G06N3/04 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 开放 问答 预测 方法 | ||
本发明涉及一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:S1:获取维基百科训练语料并对其建立索引;S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;S3:使用SQuAD数据集训练一个机器阅读理解模型;S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。与现有技术相比,本发明具有高效、精确、快速等优点。
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于深度学习的开放域问答预测方法。
背景技术
机器阅读理解(MRC)旨在教机器阅读和理解人类语言,这是自然语言理解(NLP)领域的长期目标,随着深度学习的蓬勃发展,机器阅读理解任务也取得了极大的突破。
类似IBM的DeepQA这样的大型QA系统依赖与多个知识源来回答问题,除了维基百科,它还使用了知识库(knowledge base),新闻以及图书等,但是这样的系统过度依赖冗余的信息来正确回答问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的开放域问答预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的开放域问答预测方法,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理(tokenize);
S13:对维基百科文章建立索引。
所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
所述的步骤S3具体包括以下步骤:
S31:段落编码:首次将段落p中的每一个段落token(分词)pi表示为一个特征向量并且其作为多层LSTM网络的输入,则有:
其中,下标m为段落token的总数;
S32:问题编码:以问题的每一个问题tokenqi的词向量作为另一个LSTM网络输入,并且将隐藏单元拼接成一个向量{q1,…,ql}→q,通过q=∑jbjqj计算得到问题的编码,其中,bj为问题中第j个词的重要程度。
所述的步骤S32中,问题中第j个词的重要程度bj的计算式为:
其中,w为要学习的权重,qj、qj′分别为问题中第j和j′个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299830.0/2.html,转载请声明来源钻瓜专利网。