[发明专利]一种基于自我评论序列学习的对话回复生成方法及系统有效
| 申请号: | 201810538126.2 | 申请日: | 2018-05-30 |
| 公开(公告)号: | CN108804611B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 陈哲乾;蔡登;杨荣钦;潘博远;赵洲;何晓飞 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
| 地址: | 310013 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自我 评论 序列 学习 对话 回复 生成 方法 系统 | ||
1.一种基于自我评论序列学习的对话回复生成方法,其特征在于,包括以下步骤:
(1)对当前对话的上下文语境进行建模,获得上下文语义向量;
(2)根据上下文语义向量,建立基于自我评论序列学习的对话模型;
(3)对对话模型进行训练和测试,分别得到训练奖励值和测试奖励值;
(4)计算两个奖励值之间的差,通过计算策略梯度,优化对话模型;
(5)对话模型训练完毕,输出对话回复。
2.根据权利要求1所述的基于自我评论序列学习的对话回复生成方法,其特征在于,步骤(1)中,采用深度循环神经网络和注意力机制相结合的方式进行上下文语境建模,所述上下文语义向量的计算公式为:
其中,Cu表示上下文语义向量,aj,t表示第j个单词受到第t个隐含状态影响的注意力权重,M为上下文出现的所有单词个数,wj为上下文中出现第j个单词的词向量表示,aj,t计算公式为:
其中,ht为第t个当前单词的隐含状态表示,zj为第j个单词在上下文语境中的语义表示,zj的计算公式为:
zj=tanh(Wm-1zj-1+Wm+1zj+1+bm)
其中,zj-1和zj+1为前个单词和后个单词隐含表示,Wm-1,Wm+1,bm是训练得到的参数,tanh是正切激活函数。
3.根据权利要求1所述的基于自我评论序列学习的对话回复生成方法,其特征在于,步骤(3)的具体步骤为:
(3-1)训练过程中,输入要学习的句子并得到新生成的采样句子,从而得到在具体评判标准下的训练奖励值;
(3-2)测试过程中,输入要测试的对话以及预测出的句子,得到在具体评判标准下的测试奖励值。
4.根据权利要求3所述的基于自我评论序列学习的对话回复生成方法,其特征在于,步骤(3-1)中,所述的训练过程采用的交叉熵损失函数计算训练奖励值。
5.根据权利要求1所述的基于自我评论序列学习的对话回复生成方法,其特征在于,步骤(4)中,所述的策略梯度的公式为:
其中,为损失函数的梯度下降表示,表示每个最终生成的单词与真实单词之间的误差累积期望值,r(ws)为训练奖励值,r(wt)代表测试奖励值,pθ(ws)为单词的采样分布概率。
6.一种基于自我评论序列学习的对话回复生成系统,包括计算机系统,其特征在于,所述计算机系统包括:
上下文语义理解模块,利用深度循环神经网络及注意力机制,用于捕捉对话过程中的上下文信息;
初始化对话状态模块,用于初始化对话模型在训练过程和测试过程中的超参数;
训练评测模块,用于在对话模型训练过程中计算获得训练奖励值;
测试评测模块,用于在对话模型测试过程中计算获得测试奖励值;
自我评论模块,用于计算训练评测模块和测试评测模块所得到的两个奖励值之间的差,并利用策略梯度下降策略,优化目标函数;
对话生成模块,用于在对话模型训练完毕之后,对外输出对话回复。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810538126.2/1.html,转载请声明来源钻瓜专利网。





