[发明专利]一种基于强化学习策略操控智能设备的方法有效
| 申请号: | 202110175226.5 | 申请日: | 2021-02-07 |
| 公开(公告)号: | CN112965380B | 公开(公告)日: | 2022-11-08 |
| 发明(设计)人: | 辛苗 | 申请(专利权)人: | 北京云量数盟科技有限公司 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 杨青;李彪 |
| 地址: | 100012 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 策略 操控 智能 设备 方法 | ||
1.一种基于强化学习策略操控智能设备的方法,该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控;
所述带有标签的环境参数集的获取过程为:
初始化强化学习策略和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作;将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
在智能设备所处的当前状态,获取第i轮的环境参数集Pi,为第i轮的环境参数集Pi中的每一个环境参数生成对应的标签该标签用于标记其对于当前的强化学习策略是否为中等难度;
判断在每个环境参数下当前强化学习策略的期望奖励是否在根据当前强化学习策略预先设定的中等难度阈值范围内;
如果时,则为中等难度的环境参数,并标记为1,标签
如果或时,则为高等难度或低等难度的环境参数,并标记为0,标签
其中,是第i轮的当前强化学习策略在环境参数为的扰动环境下的期望奖励;为根据当前强化学习策略预先设定的中等难度阈值的上界;为根据当前强化学习策略预先设定的中等难度阈值的下界;
因此,标签的公式为:
根据标签的公式,对第i轮的环境参数集Pi中的每一个环境参数进行标记,得到带有标签的环境参数集,记为LPi;
所述对抗性生成网络的训练过程为:
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
其中,D(·_是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;是输入样本LPi的分布;pz(z_是噪音分布;k是来源于输入样本LPi的分布的真实样本,z是来源于噪音分布pz(z_的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z)_指的是输入生成样本G(z_时,判别器D的输出;
是关于服从输入分布的随机变量k的函数的期望值;
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-a)2]的期望值;
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-c)2]的期望值;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
是矩阵M每一列所有元素极差的平方和;
a为负样本以及生成样本的标签值;b为正样本的标签值;c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi+1;
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出;
所述根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;其具体过程为:
进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
判断该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励是否小于或等于预先设定的奖励阈值;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云量数盟科技有限公司,未经北京云量数盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110175226.5/1.html,转载请声明来源钻瓜专利网。





