[发明专利]一种基于深度强化学习的指导性自动聊天方法在审
申请号: | 201811231692.5 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109388698A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 贾熹滨;史佳帅;刘洋;曾檬;苏醒;郭黎敏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度强化学习的指导性自动聊天方法,属于口语对话系统领域;利用了深度学习的强大的感知力和强化学习优越的决策力,其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势,既增加了系统的泛化能力是系统更加具有鲁棒性,又增加了系统的学习能力,使系统具有更强的适应能力。在此框架下,使口语对话系统得到更有效的训练,产生的答案也更安全、合理、自然有序。 | ||
搜索关键词: | 强化学习 教学模块 决策模块 口语对话系统 决策 聊天 模式选择 学习能力 优化目标 决策力 鲁棒性 感知 答案 学习 奖励 安全 | ||
【主权项】:
1.一种基于深度强化学习的指导性自动聊天方法,其特征在于:利用深度网络模型感知用户的意图以及状态,然后利用强化学习的方式优化模型,在此基础上加入了特定的教学模块,教学模块分为两种模式教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略;该方法包括以下步骤:步骤1,文本分词预处理;步骤1.1,读取文本进行切词操作;步骤1.2,将切分的单词读取成类别向量的表示;步骤1.3,将切分的单词按词向量表示;步骤1.4,将切分的单词读取成情感向量的表示;步骤1.5,将步骤1.2、步骤1.3和步骤1.4的向量进行拼接;步骤2,文本信息的综合处理;步骤2.1,将步骤1得到的向量送入LSTM网络识别模块;步骤2.2,将步骤2.1的结果加入分类网络,得出相应动作的概率;步骤3,动作教学步骤3.1,计算当前的模式,得出教学模式或者批判模式;步骤3.2,若步骤3.1为教学模式,则教学模块给出当前的示范动作,当前轮对话的动作即为示范模块;若步骤3.2为批判模式则教学模块给出步骤2.2中动作的奖励值,当前轮对话的动作为步骤2.2中的动作;步骤4,实体输出;根据步骤3中得出的动作进行实体填充,得到回复文本;步骤5,根据奖励优化LSTM网络模块步骤5.1,计算当前轮的奖励值;若步骤3.1为教学模块,则奖励值为本轮对话的用户评价;若步骤3.1为批判模块,则奖励值为本轮对话的用户评价与教学模块给出奖励的加和;步骤5.2,根据步骤5.1的奖励值利用策略梯度的方式优化LSTM网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811231692.5/,转载请声明来源钻瓜专利网。
- 上一篇:处理问答语料的方法、装置及电子终端
- 下一篇:输入方法、装置、设备及存储介质