[发明专利]度量复杂任务决策情景下强化学习策略间差异度的方法在审
| 申请号: | 202310055986.1 | 申请日: | 2023-01-17 |
| 公开(公告)号: | CN116011555A | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 常永哲;商宏志;王学谦;梁斌 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G06N3/092 | 分类号: | G06N3/092;G06N20/20;G06N3/04 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀锋 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种度量复杂任务决策情景下强化学习策略间差异度的方法,包括如下步骤:S1、通过中断训练周期或动态干扰与衰减,生成收敛至局部的次优子策略群;S2、采用策略生成轨迹的差异度对已生成的次优子策略群进行次优子策略群生成轨迹的差异度分析和筛选;S3、采用策略的分布概率度量PSM捕获每个次优子策略群的局部最优行为的差异和长期最优行为的差异,择取出集成多样性的次优子策略群。本发明能够保证子策略群的次优性与多样性,提升了基于集成思想的强化学习算法在复杂任务中的渐进性能。 | ||
| 搜索关键词: | 度量 复杂 任务 决策 情景 强化 学习 策略 差异 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310055986.1/,转载请声明来源钻瓜专利网。





