[发明专利]一种基于离线强化学习的智能机器人对话方法及系统有效
| 申请号: | 202110633919.4 | 申请日: | 2021-06-07 |
| 公开(公告)号: | CN113360618B | 公开(公告)日: | 2022-03-11 |
| 发明(设计)人: | 郭洪飞;马向东;曾云辉;塔建;吴清见;何智慧;任亚平;张锐 | 申请(专利权)人: | 暨南大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
| 地址: | 510632 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 离线 强化 学习 智能 机器人 对话 方法 系统 | ||
1.一种基于离线强化学习的智能机器人对话方法,其特征在于,具体包括以下步骤:
S1、获取已有的对话数据信息,对所述对话数据信息进行分类训练,构建训练集;
S2、在所述训练集抽取预设关键信息,对所述预设关键信息进行数据处理,引入非策略的批量强化学习算法,通过获取聊天中隐式表达的人类反应来了解人类的偏好改善开放域对话系统;
S3、构建基于离线强化学习的对话预判模型,并利用所述步骤S2得到的数据对所述对话预判模型进行训练,得到已训练的所述对话预判模型;其中训练时用最大化显式奖励替代显式反馈,捕获人类交流时所展现的偏好;所述奖励取决于引起来自人类用户的积极反应,即隐含的人类奖励;所述步骤S3具体包括:
S31、对所述对话预判模型提取出待优化参数,所述待优化参数包括Q函数;
S32、根据批量强化学习算法对已有的样本数据和动作网络进行离线学习训练,剔除过高估计的Q值;
S33、将受限的Q值离散化,通过学习批处理的生成模型Gw=p(a|s),以及在学习和推理期间从所述模型中采样,将Q网络的动作限制在批处理中包含的数据来解决批量强化学习问题;批量约束的深度Q学习是为连续动作域设计的,所述批量约束的深度Q学习应用了学习的扰动模型ξ(s,a;Φ),允许在范围内改变动作[—Φ,Φ];所述批量约束的深度Q学习包含微扰动模型的Q估计;为了进行动作,从生成模型中采样可能的动作,采样并选择具有最大Q值的动作,给出批量约束的深度Q学习策略:
其中π表示策略函数,BCQ表示批量约束的深度Q学习,s表示状态,ai表示采样的动作;
通过对已知动作序列数据的最大似然估计训练,获得模型的场景p(a|s);先前的模型提供了从批处理数据中得到的比模型的场景p(a|s)的更稳健的估计;为使批量约束的深度Q学习适应离散动作空间,引入预训练先验模型作为一个改进版本的Gw,由于动作空间是离散的,所以不使用扰动模型来修改动作,而是将离散批量约束的深度Q学习策略定义为:
其中DBCQ表示离散批量约束的深度Q学习;
S34、通过相对熵控制,将先验p(a|s)合并到策略πθ中;在保证最大化奖励的前提下,使用相对熵控制来减小先验p(a|s)和Q网络策略πθ之间的分歧;给定一个动作轨迹τ={a1,a2,…,at-1},代表Q学习算法在轨迹上的策略,代表在轨迹上的先验分布,r(τ)代表奖励,寻求最大化以下相对熵正则化的目标:
L(q)=Eq(τ)[r(τ)]/c-DKL[q(τ)||p(τ)]
由于即在操作级别上使策略πθ的状态动作对的期望值函数最大化:
先验p(a|s)奖励模型中在先验下具有高概率的动作,将模型偏置于现实且可能在批中的状态动作对;-logπ(a|s)项类似于熵的正则化;通过熵正则化来保持动作空间的多样性,将状态动作对的期望值函数作为一个熵正则化的q函数,得到:
基于π(at|st)∝exp(-ξ(st,at))形式的基于能量的模型,推导出熵正则化q函数的软版本,使用玻尔兹曼分布来估计未来的奖励,将其称为一个Ψ函数,最佳的Ψ函数和策略包括:
S35、均衡化训练得到智能化的对话网络,完成网络的预优化;批处理中的数据从具有不同架构的各种不同模型M生成的设置,每个模型都学习p的不同估计p(a|s;M),使用这种多样性,通过基于每个模型的归一化分数S(M)来计算每个模型的加权平均值,来创建一个更健壮的先验,完成预训练离线强化学习模型;分数是模型质量的衡量,或者是该模型生成的批数据的比例;将pMA(a|s)定义为模型平均先验:
S4、获取待交流对话的数据信息;
S5、从所述待交流对话的数据信息中抽取预设关键信息,通过数据处理得到第一向量;
S6、利用所述已训练的对话预判模型处理所述第一向量,得到对应的第一标签,根据所述第一向量和所述第一标签进行决策输出;
S7、基于所述决策与用户进行对话,存储学习结果;
通过学习人类反应方式中隐含的信号来提高对话模型与人类进行自然对话的能力,从而使在机器人说话的最后时刻,估计的未来奖励包括人类的反应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110633919.4/1.html,转载请声明来源钻瓜专利网。





