[发明专利]一种基于强化学习策略操控智能设备的方法有效
| 申请号: | 202110175226.5 | 申请日: | 2021-02-07 |
| 公开(公告)号: | CN112965380B | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 辛苗 | 申请(专利权)人: | 北京云量数盟科技有限公司 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 杨青;李彪 |
| 地址: | 100012 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 策略 操控 智能 设备 方法 | ||
本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及一种基于强化学习策略操控智能设备的方法,该方法包括:获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
技术领域
本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及基于一种基于强化学习策略操控智能设备的方法。
背景技术
强化学习是人工智能的核心技术之一,通过不断与应用环境交互,进而学习到最优的策略,为机器人、无人驾驶车辆等智能设备提供智力的决策支持。公开材料显示,在公开比赛前,阿尔法围棋AlphaGo已经使用了强化学习进行训练。但是,训练环境与真实环境总是存在差异的,由于存在噪音而导致训练环境和真实环境不可能完全一致。因此,如何降低由于训练环境与真实环境之间的差异性而导致对训练的影响,以及如何提高强化学习的鲁棒性是一个重要的研究问题。
目前的传统方法中,主要是在训练过程中,对环境参数增加随机噪音扰动,使得强化学习训练过程包括更多的噪音,从而提高训练鲁棒性。但是,现有的方法不能有效控制噪音的扰动,过大的扰动会导致强化学习无法训练出最优策略,导致训练失败;而限制扰动又会导致训练的欠鲁棒性。
发明内容
为解决现有技术存在的上述缺陷,本发明提出了一种基于强化学习策略操控智能设备的方法,具体涉及基于循序渐进的鲁棒性强化学习策略操控机器人和无人驾驶车辆等智能设备的方法;该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
作为上述技术方案的改进之一,所述带有标签的环境参数集的获取过程为:
初始化强化学习策略和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作;将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
在智能设备所处的当前状态,获取第i轮的环境参数集Pi,为第i轮的环境参数集Pi中的每一个环境参数生成对应的标签该标签用于标记其对于当前的强化学习策略是否为中等难度,
判断在每个环境参数下当前强化学习策略的期望奖励是否在根据当前强化学习策略预先设定的中等难度阈值范围内;
如果时,则为中等难度的环境参数,并标记为1,标签
如果或时,则为高等难度或低等难度的环境参数,并标记为0,标签
其中,是第i轮的当前强化学习策略在环境参数为的扰动环境下的期望奖励;为根据当前强化学习策略预先设定的中等难度阈值的上界;为根据当前强化学习策略预先设定的中等难度阈值的下界;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云量数盟科技有限公司,未经北京云量数盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110175226.5/2.html,转载请声明来源钻瓜专利网。





