[发明专利]一种基于深度强化学习的指导性自动聊天方法在审

申请号：	201811231692.5	申请日：	2018-10-22
公开（公告）号：	CN109388698A	公开（公告）日：	2019-02-26
发明（设计）人：	贾熹滨;史佳帅;刘洋;曾檬;苏醒;郭黎敏	申请（专利权）人：	北京工业大学
主分类号：	G06F16/332	分类号：	G06F16/332
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	沈波
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习教学模块决策模块口语对话系统决策聊天模式选择学习能力优化目标决策力鲁棒性感知答案学习奖励安全
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的指导性自动聊天方法，其特征在于：利用深度网络模型感知用户的意图以及状态，然后利用强化学习的方式优化模型，在此基础上加入了特定的教学模块，教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略；该方法包括以下步骤：

步骤1，文本分词预处理；

步骤1.1，读取文本进行切词操作；

步骤1.2，将切分的单词读取成类别向量的表示；

步骤1.3，将切分的单词按词向量表示；

步骤1.4，将切分的单词读取成情感向量的表示；

步骤1.5，将步骤1.2、步骤1.3和步骤1.4的向量进行拼接；

步骤2，文本信息的综合处理；

步骤2.1，将步骤1得到的向量送入LSTM网络识别模块；

步骤2.2，将步骤2.1的结果加入分类网络，得出相应动作的概率；

步骤3，动作教学

步骤3.1，计算当前的模式，得出教学模式或者批判模式；

步骤3.2，若步骤3.1为教学模式，则教学模块给出当前的示范动作，当前轮对话的动作即为示范模块；若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值，当前轮对话的动作为步骤2.2中的动作；

步骤4，实体输出；根据步骤3中得出的动作进行实体填充，得到回复文本；

步骤5，根据奖励优化LSTM网络模块

步骤5.1，计算当前轮的奖励值；若步骤3.1为教学模块，则奖励值为本轮对话的用户评价；若步骤3.1为批判模块，则奖励值为本轮对话的用户评价与教学模块给出奖励的加和；

步骤5.2，根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。

2.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法，其特征在于：建立基于教学模块指导的深度强化学习网络框架：端到端对话生成模块以及教学模式判别模块；其中模型的主体模块为一个LSTM深度网络，用来综合用户的输入信息产生相应的决策，教学模块用以指导决策模块，连同当前用户意图和对话状态的感知，选择相对应的策略，根据策略优化LSTM深度网络，提升对话生成对会话情景的适应性。

3.根据权利要求1所述的一种基于深度强化学习的指导性自动聊天方法，其特征在于：策略梯度的优化算法，即：其中γ为学习率；a_t是t时间采取的行为；h_t是t时间的对话历史；▽_w表示对w取Jacobian行列式；b代表偏置，是对当前策略返回奖励的平均估计。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811231692.5/1.html，转载请声明来源钻瓜专利网。

上一篇：处理问答语料的方法、装置及电子终端
下一篇：输入方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的指导性自动聊天方法在审

专利文献下载