[发明专利]一种适用于复杂未知环境的自适应SAC-PID方法有效

专利信息
申请号: 202110525617.5 申请日: 2021-05-13
公开(公告)号: CN113359704B 公开(公告)日: 2022-04-19
发明(设计)人: 樊越海;阮雨迪;徐思宇;禹鑫燚;欧林林 申请(专利权)人: 浙江工业大学
主分类号: G05D1/02 分类号: G05D1/02
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 复杂 未知 环境 自适应 sac pid 方法
【权利要求书】:

1.一种适用于复杂未知环境的自适应SAC-PID方法,其特征在于,包括如下步骤:

步骤一、利用机器人仿真平台搭建循线机器人的环境;

其中,机器人仿真环境包括带RGB相机的移动机器人模型和路径模型,并将移动机器人置于路径的起始位置(x0,y0,z0)为路径起点坐标;

步骤二、基于深度强化学习Soft Actor-Critic,简称SAC,构建深度神经网络模型;

其中,所述深度神经网络模型包括:决策网络π(φ),状态价值函数网络V(ψ)和动作价值函数网络Q(θi),i∈{1,2};φ,ψ,θi分别为决策网络,状态价值函数网络和动作价值函数网络的参数;

步骤三、定义移动机器人循迹时的状态表征值;

其中,所述移动机器人状态表征值包括:轨迹中心线上均匀取由远及近的五个像素点的横纵坐标值(xi,yi),i∈{1,2,3,4,5};轨迹斜率和移动机器人的实时曲率之差ec;移动机器人的实时线速度vt和角速度ωt

步骤四、在步骤一中搭建的仿真环境中训练深度神经网络模型,具体包括如下子步骤:

4.1:构建并初始化步骤二中的四个深度神经网络模型;初始化一个空的经验回放池R;构造两个结构相同的增量PID控制器,分别为主控PID控制器和辅控PID控制器;设置回合数为n=0,总回合数为N,令初始时刻t=1;

4.2:利用步骤一中的RGB相机获得h×w的RGB图像It,并预处理It得到路径跟踪信息,并根据步骤三得到t时刻的状态st=[x1,y1,x2,y2,x3,y3,x4,y4,x5,y5,ec,vtt];

4.3:将步骤4.2中的st输入决策网络π(φ),根据式(1)输出六维PID参数Kt={kmp,kmi,kmd,kcp,kci,kcd},{kmp,kmi,kmd}是主控PID控制器的比例、积分和微分参数,{kcp,kci,kcd}是辅控PID控制器的比例、积分和微分参数;

其中,εt是从一个正态分布N中采样的噪声向量,是决策网络高斯分布的均值,是决策网络高斯分布的方差;从而根据式(2)计算移动机器人的角速度:

ωt=ωt-1+Δωm+ηΔωc (2)

其中ωt-1是t-1时刻的角速度,Δωm为主控PID控制器的输出,可由式(3)计算得到,Δωc为辅控PID控制器的输出,可由式(4)计算得到,η为比例系数;

Δωc=kcp[ec(t)-ec(t-1)]+kciec(t)+kcd[ec(t)-2ec(t-1)+ec(t-2)] (4)

其中em=x4,em(t),em(t-1)和em(t-2)分别是t,t-1和t-2时刻的em;ec(t),ec(t-1)和ec(t-2)分别是t,t-1和t-2时刻的ec

4.4:根据步骤4.3中的em(t)计算移动机器人的线速度:

vt=-ax|em(t)|+bx (5)

其中,ax和bx为限制移动机器人线速度的系数;

4.5:移动机器人执行角速度ωt和线速度vt,记录执行动作后重复步骤4.2得到移动机器人观测的状态st+1,并根据st+1和式(6)计算奖励函数r(t),根据式(6)记录回合结束标志F;

其中s(w),v(w)分别是第w个回合时循迹的路程和平均速度;β1,β2,β3分别是em(t),em(t-1)和em(t-2)的比例系数;ζr,ζv,ζs分别是每一项的权重系数;g为正奖励常数;

4.6:将元组(st,Kt,rt,st+1,F)存入经验回放池R中;

4.7:设定采样数量为b,当前经验回放池R中的元组数量d,若bd,则进入步骤4.8更新网络参数,否则进入步骤4.9;

4.8:在R中随机采样b条元组,首先把式(7)作为损失函数,利用梯度下降算法更新状态价值函数网络V(ψ)的参数:

其中Qθ(st,Kt)为再根据式(8)利用梯度下降算法分别更新和

是值函数网络参数ψ的平均值;最后根据式(9)利用梯度下降更新策略网络:

其中是

4.9:若F=1,则t=0,进入下一回合,回合数n+1,待回合数n≥N,完成训练,导出训练后的模型π(φ),V(ψ)和Q(θi);若F=0,则t+1,进入步骤4.2,继续在此回合内进行交互;

步骤五、将仿真训练完成的策略网络模型参数导入实际机器人模块中,通过传感器实时获取如步骤二所述的移动机器人的状态表征值,将状态向量输入策略网络,根据式(1)得到最优的六维PID控制器参数;底层PID控制器接收上述参数,根据公式(2)和(4)输出角速度和线速度值控制移动机器人循迹。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110525617.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top