[发明专利]一种基于深度学习和主题模型的问答系统实现方法有效
申请号: | 201810330697.7 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108763284B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 詹国辉;俞祝良 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 主题 模型 问答 系统 实现 方法 | ||
1.一种基于深度学习和主题模型的问答系统实现方法,其特征在于,包括以下步骤:
S1、将问句输入Twitter LDA主题模型获得问句的主题类型,并提取相应主题词,将输入问句和主题词表示为词向量;
S2、问答模型使用sequence-to-sequence编码解码框架,将输入问句的词向量输入RNN循环神经网络编码,获取问句的编码隐藏层状态向量;
S3、解码RNN循环神经网络使用联合注意力机制结合问句的局部和全局混合语义向量,进行解码生成词,包括以下步骤:
S31、根据RNN编码隐藏层状态向量将编码中最后时刻隐藏层状态向量当作问句的全局语义编码向量,即如下所示:
其中,c表示语义编码向量,q表示线性组合函数,为编码最后时刻隐藏层状态向量;
与全局语义向量不同,注意力机制能动态选择和线性组合的不同部分,因此ct表示局部语义编码向量,即如下所示:
其中,ct表示不同时刻的语义编码向量,αtj表示注意力机制的权重大小,etj表示多层感知器神经网络,st-1表示解码RNN的隐藏层状态向量,hj表示编码RNN隐藏层状态向量;另外的参数Wa、Ua为注意力模型需要学习的参数;
S32、解码RNN中使用主题的注意力和问句的注意力组成联合注意力机制,联合注意力机制能充分利用主题词和问句的编码语义向量,从而解码RNN利用它进行生成答案,相比传统注意力机制,联合注意力机制利用步骤S31中全局语义编码向量和局部语义编码向量的混合作为注意力机制的输入,进行主题的注意力和问句的注意力权重参数的学习,一方面能引入主题词生成主题相关答案,另一方面能减少主题模型中无关主题词噪声数据的影响,注意力机制的权重参数计算分别如下:
其中,st-1表示解码RNN的第t-1个隐藏层状态向量,hT是输入问句的最后一个隐藏层状态向量,kj为主题词向量,hj表示编码RNN隐藏层状态向量,η0是一个多层感知器,为主题注意力机制权重参数,为问句注意力机制权重参数;
S33、解码RNN在t时刻利用联合注意力机制信息进行隐藏层状态向量的计算如下:
st=f(yt-1,st-1,ct,ot)
其中,st∈Rn是序列模型在t时刻隐层状态,ct是t时刻问句message语义编码向量,ot是t时刻主题词Topic主题语义向量,yt-1表示t-1时刻预测词,f函数使用GRU作为非线性转换单元,为主题注意力机制权重参数,为问句注意力机制权重参数;
S34、利用步骤S33中解码RNN隐藏层状态向量st和yt-1即可预测t时刻词yt的概率pv(yt),为了增加主题词在对话答案中出现的概率增加主题词的偏置概率项pk(yt);对偏置概率项进一步使用主题的注意力中的主题词权重大小进一步减少无关主题词的影响,促进与问句相关性强的主题词出现在生成答案中,预测词生成概率计算如下:
其中,pv(yt)表示生成普通词的概率,pk(yt)表示主题词偏置概率,为主题注意力机制权重参数;
S4、使用大规模对话语料训练基于编码解码框架的深度学习主题问答模型;
S5、利用训练的问答模型预测输入问句的答案,生成与问句主题相关的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810330697.7/1.html,转载请声明来源钻瓜专利网。