[发明专利]一种基于多注意力机制融合网络问答系统的实现方法有效
申请号: | 201910281835.1 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110134771B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 杨祖元;陈松灿;梁乃耀;李珍妮 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/211;G06F40/284;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 融合 网络 问答 系统 实现 方法 | ||
1.一种基于多注意力机制融合网络问答系统的实现方法,其特征在于,所述方法包括以下步骤:
S1:构建问答系统网络模型,所述问答系统网络模型包括有:输入层、词嵌入层、编码层、关注层和解码输出层;采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集,根据待用数据集中各文本长度分布,确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度,所述文本包括:问题句子文本、答案句子文本和文章文本;同时将待用数据集按设定的比例划分为训练集和验证集;
S2:在输入层对待用数据集中的文本进行one-hot编码得到one-hot词向量;在词嵌入层采用word2vec的CBOW模型训练one-hot词向量,得到word2vec词表;
S3:从训练的word2vec词表中获取文本每个词的向量表示,并根据S1得到的文本平均长度进行补零或裁剪处理,使文本中每一条句子的序列长度一致,并加入句子结束符;
S4:使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量,得到ELMO词向量;
所述ELMO语言模型为一个双向的LSTM语言模型,所述的ELMO语言模型目标函数为:
其中,k、N表示序号,t表示每个词的word2vec表示,p表示概率;CBOW模型训练后的Word2vec向量作为ELMO语言模型的输入;
对每个词,L-layer双向LSTM计算一组表征,所述一组表征为一组经过双向LSTM得到的句子向量:
其中,k表示每个词,j表示层序号,表示从左至右第j层的第k个词的隐藏层状态,L表示双向GRU的层数;
表示从右至左第j层的第k个词的隐藏层状态;是每个双向LSTM输出的结果,Rk表示ELMO模型每一层的输出;并将ELMO模型所有输出层中最上层的输出作为词的表示;
S5:在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量;所述句子向量包括:文章句子向量和问题句子向量;
S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆,分别得到对文章句子和问题句子关注程度的记忆向量;
S7:在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注,将所述关注函数的输出信息集成得到基于每个词的关注向量;
S8:将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为rq向量,将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量,将拼接后得到的向量与rq向量进行Concat attention拼接,得到基于词和基于句子的表示向量;
S9:在解码输出层对步骤S8得到的表示向量进行解码,生成问题句子的答案。
2.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,步骤S1所述的预处理具体过程为:首先将原始数据集中英文标点符号换成中文标点符号得到数据集D1,再去除数据集D1文本中的停用词得到数据集D2,删除数据集D2文本中的非法字符得到数据集D3,对数据集D3各文本进行长度分布分析得到待用数据集。
3.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在在于,每个文本的最大长度具体为:
计算待用数据集中所有问题句子文本的平均长度作为句子文本的最大文本长度;
计算待用数据集中文章文本数据中所有文本的平均长度作为文章文本的最大文本长度。
4.根据权利要求1所述的一种基于多注意力机制融合网络问答系统的实现方法,其特在于,将所述one-hot编码得到one-hot词向量作为CBOW模型的输入,所述CBOW模型输出层输出目标词概率最大的one-hot词向量;所述CBOW模型的目标函数为:
其中,w表示语料库C中任意一个词的one-hot词向量;将输入层的每个词的one-hot词向量与CBOW模型的权重矩阵W相乘得到的向量记为CBOW模型训练后的one-hot词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910281835.1/1.html,转载请声明来源钻瓜专利网。