[发明专利]一种基于多注意力机制融合网络问答系统的实现方法有效
申请号: | 201910281835.1 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110134771B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 杨祖元;陈松灿;梁乃耀;李珍妮 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/211;G06F40/284;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 张金福 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多注意力机制融合网络问答系统的实现方法,包括以下步骤:构建问答系统网络模型,对原始数据集预处理后得到待用数据集,进行文本长度分布分析;将待用数据集中文本进行one‑hot向量表示,使用CBOW模型训练one‑hot词向量,并组成word2vec词表;调整文本中每一条句子的序列长度,并加入句子结束符;使用ELMO语言模型训练word2vec向量得到ELMO词向量;对ELMO向量进行编码得到句子向量;分别对句子向量进行粗细粒度的关注分别得到记忆向量和基于每个词的关注向量;进行向量拼接得到基于词和句子的表示向量;解码表示向量生成问题句子的答案。本发明通过ELMO语言模型提高了句子的表征能力;融合多种注意力机制,提高了系统做决策的准确率,增强了系统的可解释性。 | ||
搜索关键词: | 一种 基于 注意力 机制 融合 网络 问答 系统 实现 方法 | ||
【主权项】:
1.一种基于多注意力机制融合网络问答系统的实现方法,其特征在于,所述方法包括以下步骤:S1:构建问答系统网络模型,所述问答系统网络模型包括有:输入层、词嵌入层、编码层、关注层、解码输出层;采集原始文本数据组成原始数据集并进行文本格式预处理后得到待用数据集,根据待用数据集中各文本长度分布,确定待用数据集中每个文本的最大长度及计算待用数据集中文本的平均长度,所述文本包括:问题句子文本、答案句子文本、文章文本;同时将待用数据集按设定的比例划分为训练集和验证集;S2:在输入层对待用数据集中文本进行one‑hot编码得到one‑hot词向量;在词嵌入层采用word2vec的CBOW模型训练one‑hot词向量,得到word2vec词表;S3:从训练的word2vec词表中获取文本每个词的向量表示,并根据S1得到的文本平均长度进行补零或裁剪处理,使文本中每一条句子的序列长度一致,并加入句子结束符;S4:使用ELMO语言模型训练CBOW模型训练完毕的word2vec向量,得到ELMO词向量;S5:在编码层通过双向循环神经网络对步骤S4得到的ELMO向量进行编码得到句子向量;所述句子向量包括:文章句子向量和问题句子向量;S6:在关注层将编码后得到的文章句子向量和问题句子向量输入至神经网络中进行设定次数的记忆,分别得到对文章句子和问题句子关注程度的记忆向量;S7:在关注层使用细粒度的关注函数对编码后的文章句子向量和问题句子向量中的每个词进行关注,将所述关注函数的输出信息集成得到基于每个词的关注向量;S8:将步骤S5中所述的问题句子向量包含的每个词向量进行拼接得到的向量记为rq向量,将步骤S6得到的记忆向量和步骤S7得到的关注向量进行相加拼接成一个向量,将拼接后得到的向量与rq向量进行Concat attention拼接,得到基于词和基于句子的表示向量;S9:在解码输出层对步骤S8得到的表示向量进行解码,生成问题句子的答案。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910281835.1/,转载请声明来源钻瓜专利网。