[发明专利]度量复杂任务决策情景下强化学习策略间差异度的方法在审

申请号：	202310055986.1	申请日：	2023-01-17
公开（公告）号：	CN116011555A	公开（公告）日：	2023-04-25
发明（设计）人：	常永哲;商宏志;王学谦;梁斌	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	G06N3/092	分类号：	G06N3/092;G06N20/20;G06N3/04
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	江耀锋
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	度量复杂任务决策情景强化学习策略差异方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种度量复杂任务决策情景下强化学习策略间差异度的方法，包括如下步骤：S1、通过中断训练周期或动态干扰与衰减，生成收敛至局部的次优子策略群；S2、采用策略生成轨迹的差异度对已生成的次优子策略群进行次优子策略群生成轨迹的差异度分析和筛选；S3、采用策略的分布概率度量PSM捕获每个次优子策略群的局部最优行为的差异和长期最优行为的差异，择取出集成多样性的次优子策略群。本发明能够保证子策略群的次优性与多样性，提升了基于集成思想的强化学习算法在复杂任务中的渐进性能。

技术领域

本发明涉及深度强化学习的集成问题的技术领域，特别是涉及一种度量复杂任务决策情景下强化学习策略间差异度的方法。

背景技术

强化学习的训练目标为智能体如何针对当前环境状态采取动作(Action，A_t)，才能最大化收益(Reward，R_t)，侧重于以交互目标为导向进行学习，而不需要可效仿的监督信号或对周围环境(Environment)的完全建模。智能体并不会被告知应该采取哪些动作，而是必须通过试错学习(Trail-and-error)发现哪些状态-动作会产生最丰厚的收益。其中的过程具有延迟回报的特点，即动作往往影响的不仅是即时收益，还会影响下一个环境状态(State，S_t)，从而影响随后的收益。较之其他机器学习方法，强化学习中目标导向的智能体与不确定环境交互的方式更类似于生物学习的本质，所以被认为是实现人工智能化的重要途径之一。

智能体与环境的交互过程随着环境内部的时间节点推移而不断进行。在观测量为全信息的条件下，可以用一个四元组S_t,A_t,R_t,S‘_t来描述这个交互模型过程。

在强化算法集成的传统思路中，是将弱化模型的增强多样性再协同训练(降低对模型的渐进性能要求，通过设计训练多个弱学习器作为智能体，往往选择体量较小、训练难度较低、神经网络层数较少的模型，进而实现收敛性的提升)，理想状态下做到探索与利用的相对平衡，不同算法间进行经验交互。

近年来深度强化学习算法用于各类控制任务中的复杂问题，并取得了优秀成果。但单个强化学习算法在表现出良好性能的同时，通常会在技术体量、计算量或训练时长等方面牺牲了较大代价；且现有强化学习算法在多阶段的复杂控制任务中表现各有优劣，没有一个算法可以完全在所有场景下表现很好。

强化学习中的群体决策以相对较高的个体素质水平为前提，并需要有针对不同状态情景下较为优异却局限的个体算法，即保证个体学习器之间的独立性和差异性。差异性和独立性的缺失导致集成的强化学习算法在面对复杂任务决策情景中，因上层选择网络的不当择取或者底层多智能体在不同状态下保持较低水平从而表现不出应有的优良性能。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于解决现有强化学习算法集成的子策略在复杂任务决策情景下的区分度缺失以及绝对奖励差异过于严格导致模型泛化能力较差的技术问题，提供一种度量复杂任务决策情景下强化学习策略间差异度的方法。

本发明通过如下技术方案加以实现：

一种度量复杂任务决策情景下强化学习策略间差异度的方法，包括如下步骤：

S1、通过中断训练周期或动态干扰与衰减，生成收敛至局部的次优子策略群；

S2、采用策略生成轨迹的差异度对已生成的次优子策略群进行次优子策略群生成轨迹的差异度分析和筛选；

S3、采用策略的分布概率度量PSM捕获每个次优子策略群的局部最优行为的差异和长期最优行为的差异，择取出集成多样性的次优子策略群。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310055986.1/2.html，转载请声明来源钻瓜专利网。