[发明专利]一种基于深度强化学习的指导性自动聊天方法在审
申请号: | 201811231692.5 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109388698A | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 贾熹滨;史佳帅;刘洋;曾檬;苏醒;郭黎敏 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 教学模块 决策模块 口语对话系统 决策 聊天 模式选择 学习能力 优化目标 决策力 鲁棒性 感知 答案 学习 奖励 安全 | ||
本发明公开了一种基于深度强化学习的指导性自动聊天方法,属于口语对话系统领域;利用了深度学习的强大的感知力和强化学习优越的决策力,其中主要包含教学模块通过直接给出示范决策或者给予额外的奖励来指决策模块做出正确的策略。模式选择控制教学模块是直接给出示范决策还是给出决策模块的评价。决策模块根据教学模块给出的评价以及用户的评价作为优化目标不断调整自身的决策情况。这种方法兼顾深度学习和强化学习的优势,既增加了系统的泛化能力是系统更加具有鲁棒性,又增加了系统的学习能力,使系统具有更强的适应能力。在此框架下,使口语对话系统得到更有效的训练,产生的答案也更安全、合理、自然有序。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于深度强化学习的通过与环境交互不断优化对话系统的模型方法。
背景技术
聊天系统是一种可以通过日常口语与人类对话的服务代理。在我们与技术的互动中,这种系统将扮演越来越重要的角色。聊天系统具有广泛的应用范围,从支持语音的移动应用到车载导航助手、只能家居、辅导系统以及(在不远的将来)协助我们日常工作的服务机器人。聊天系统具有广阔的应用场景和市场需求,因此研究提高对话系统的自然性、连贯性、稳定性、智能性等具有重要意义。
传统的聊天系统基于人工模板活基于知识库检索的方式打造,在垂直领域中往往有很好的体验,根据目标领域人工编码形式逻辑模型会把对话限制在较窄的范围,易于机器理解,但这种形式结构无法高效地跟上源知识的增长和领域的切换。然而,基于深度学习的聊天系统是通过数据驱动的端到端的构建过程,只要给定训练数据就可以训练出效果不错的系统,省去了特征抽取以及各种复杂的中间步骤的处理,使得系统的开发效率更高。
深度学习起源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。通过深度学习进行表示学习,可以通过梯度下降实现自动特征工程和端到端学习,从而显着减少甚至消除对领域知识的依赖。特征工程过去是手动完成的,通常是耗时的,过多的,不完整的。深度的分布式表征利用数据中的因素的层次组合来对抗尺寸诅咒的指数式挑战。深度神经网络的一般性、表达性和灵活性使得一些任务更容易或可能。但是深度模型过于依赖训练数据,无法根据环境的反馈动态优化自身,因此,在深度学习的基础上加入强化学习的机制进一步成为了研究界的热门话题。
强化学习是智能体以“试错”的方式进行学习,通过不断地与环境交互获得奖励,来优化自身的策略以获得最大奖励的方法。智能体在每一个行动之后,都可以观察到由于行为而产生的新的环境状态,以及获得执行行为的直接价值(正面或负面)的数字奖励。智能体的目标是通过尝试和错误的过程来找到在任何给定状态下执行的最佳操作——最好的行为被认为是最大化代理预期长期回报的行为。
深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来而诞生的深度强化学习,利用深度学习与强化学习的优势互补,为聊天系统的感知决策问题提供了解决思路。
发明内容
本发明的目的在于提供一种基于深度强化学习的指导性自动聊天方法,用深度学习的方法感知环境的状态,利用强化学习的方式通过与环境交互不断优化对话策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811231692.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理问答语料的方法、装置及电子终端
- 下一篇:输入方法、装置、设备及存储介质