[发明专利]一种基于深度学习的开放域问答预测方法在审
申请号: | 202011299830.0 | 申请日: | 2020-11-19 |
公开(公告)号: | CN112417119A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 徐玉鹏;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/289;G06N3/04 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 开放 问答 预测 方法 | ||
1.一种基于深度学习的开放域问答预测方法,其特征在于,该方法包括以下步骤:
S1:获取维基百科训练语料并对其建立索引;
S2:根据问题通过检索获得相关性最高的多篇文章,并切分成段落,最终输出多个得分最高的段落;
S3:使用SQuAD数据集训练一个机器阅读理解模型;
S4:以多个得分最高的段落以及问题作为输入,通过机器阅读理解模型预测答案在段落中的起始位置和结束位置。
2.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S1具体包括以下步骤:
S11:获取维基百科语料作为知识库;
S12:对维基百科语料进行分词预处理;
S13:对维基百科文章建立索引。
3.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2中,根据问题从维基百科的文章中检索获得相关性最高的5篇文章。
4.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S2具体包括以下步骤:
S21:对问题进行预处理,得到问题的bag-of-words信息;
S22:通过TF-IDF算法在建完索引的数据库中检索出相关性最高的5篇文章。
5.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S3具体包括以下步骤:
S31:段落编码:首次将段落p中的每一个段落token pi表示为一个特征向量并且其作为多层LSTM网络的输入,则有:
其中,下标m为段落token的总数;
S32:问题编码:以问题的每一个问题token qi的词向量作为另一个LSTM网络输入,并且将隐藏单元拼接成一个向量{q1,...,ql}→q,通过q=∑jbjqj计算得到问题的编码,其中,bj为问题中第j个词的重要程度。
6.根据权利要求5所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S32中,问题中第j个词的重要程度bj的计算式为:
其中,w为要学习的权重,qj、qj′分别为问题中第j和j′个词。
7.根据权利要求1所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,以段落向量{P1,...,Pm}和问题向量q作为输入,分别训练两个分类器来预测答案的开始和结束位置。
8.根据权利要求7所述的一种基于深度学习的开放域问答预测方法,其特征在于,所述的步骤S4中,在训练阶段,采用双线性函数计算每个token作为开始和结束位置的概率,则有:
Psiart(i)∝exp(piWsq)
Pend(i)∝exp(piWeq)
其中,Pstart(i)为第i个段落token pi作为开始位置的概率,Pend(i)为第i个段落tokenpi作为结束位置的概率,Ws和We分别为答案片段开始和结束位置的可学习的参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299830.0/1.html,转载请声明来源钻瓜专利网。