[发明专利]基于RBF网络的Q学习框架仿人机器人稳定控制方法有效
申请号: | 201510299823.3 | 申请日: | 2015-06-03 |
公开(公告)号: | CN104932264B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 毕盛;黄铨雍;韦如明;闵华清;董敏 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于RBF网络的Q学习框架仿人机器人稳定控制方法,该方法包括:提出基于RBF网络的Q学习框架(RBF‑Q Learning),该框架解决Q学习过程中状态空间连续化和行为空间连续化的问题;提出基于RBF网络的Q学习在线动作调整稳定控制算法,产生支撑腿的髋关节、膝关节以及踝关节轨迹,并通过计算出其他各关节角度控制仿人机器人稳定行走;最后通过在本实验室设计的The Vitruvian Man仿人机器人平台上验证RBF‑Q Learning框架方法的可行性和有效性。本发明能够通过在线学习过程中产生仿人机器人稳定行走的步态。 | ||
搜索关键词: | 仿人机器人 稳定控制 连续化 在线学习过程 膝关节 角度控制 行为空间 在线动作 状态空间 支撑腿 踝关节 髋关节 步态 算法 关节 验证 | ||
【主权项】:
1.基于RBF网络的Q学习框架仿人机器人稳定控制方法,其特征在于包括如下步骤:(1)设计基于RBF网络的Q学习框架(RBF‑Q Learning),假设Q函数接收一个状态向量s(t)和一个动作向量a(t)输入,并输出一个标量Q(t),具体包括:1)RBF神经网络设计输入层:s(t)表示Q学习中Q函数在t时刻输入的状态;a(t)表示Q学习中Q函数在t时刻输入的动作;隐层:yi(t)为隐层RBF激活函数,使用高斯核函数作为神经元的RBF激活函数;对于第i个神经元的RBF激活函数,使用以下公式计算其输出:
其中,x是输入变量,μi和σi分别是第i个神经元的中心和标准差,k为RBF激活函数个数;输出层:Q(t)代表Q函数输出,使用下式子进行更新,
其中,wi为第i个神经元输出在Q函数中的权重;2)RBF网络更新定义Q学习误差δQ,如下:δQ=(1‑λ)(r+γQmax‑Q(s(t),a*,t))其中,λ为学习因子,0≤λ≤1;γ为衰减因子0<γ<1;Qmax为迭代过程中当前Q最大值;r为立即回报值;a*表示最优的行动选择;s(t)为输入状态;误差δQ指示了Q函数在学习过程中的收敛程度;定义该RBF网络的学习性能指标E如下:
使用BP算法及梯度下降法,对RBF网络进行更新,对于每个神经元的输出权重wi,有如下更新公式:
其中,
为学习率,对于E(t)和wi(t),有:![]()
根据链式法则,每个神经元的输出权重wi,更新公式变为:
对于每个神经元RBF函数的中心和标准差μi和σi,有如下更新公式:![]()
其中,αμ和ασ分别为RBF函数中心和标准差的学习率;3)梯度下降法求解Q学习下一步行为对于离散Q学习,通过遍历Q表来求解max{Q(s(t),b,t)/b∈A},即b表示下一步最优行为,A为离散Q学习中所需要的全部动作的集合;而对于连续行为的Q函数,采用梯度下降法求解下一步行为;对max{Q(s(t),b,t)/b∈A}可转化为极小值问题min{‑Q(s(t),b,t)/b∈A};假设当前状态为s(t),动作向量a有m个维度,即a=[a1,a2,...,am];对于函数‑Q(s(t),b,t),有梯度方向:
在每一步求解迭代中,a向梯度反方向更新,有:
其中,λa为步长,对于梯度下降法求解max{Q(s(t),b,t)/b∈A},有整体算法步骤如下:①初始化参数,包括:容许误差ΔEmin、最大迭代次数k、步长λa及随机指定初始值a(0),令i=0;②对于a(i),利用
求当前梯度方向
③使用公式
更新获得a(i+1);④计算误差ΔE=||a(i+1)‑a(i)||,如果ΔE≤ΔEmin或i>k,则停止;否则,令i=i+1,跳转至步骤②;(2)设计基于RBF‑Q Learning框架的在线动作调整稳定控制器;对于机器人的前后及左右两个方向,分别设计两个稳定控制器:1)前后方向的稳定控制以左脚支撑阶段为例,右脚同理,针对仿人机器人前后方向的稳定控制,定义RBF‑Q Learning学习的状态输入为以下:spitch(t)=[θhip_pitch(t),θknee_pitch(t),θankle_pitch(t),θxz(t)]其中,θhip_pitch(t)、θknee_pitch(t)、θankle_pitch(t)分别为t时刻仿人机器人离线基础步态中左脚髋关节俯仰舵机角度、膝关节舵机角度及踝关节舵机角度,θxz(t)为t时刻xz平面上的躯干‑重垂线夹角;对前后方向稳定控制主要取决于左腿髋关节俯仰舵机、膝关节舵机以及踝关节舵机,故输出行为定义为其在线调整值:apitch(t)=[Δθhip_pitch(t),Δθknee_pitch(t),Δθankle_pitch(t)]其中,Δθhip_pitch(t)、Δθknee_pitch(t)、Δθankle_pitch(t)分别为当前髋关节俯仰舵机、膝关节舵机、踝关节舵机的调整角度;对于机器人的所采取行为的评判,我们使用姿态传感器信息得到的机器人身体偏转角度计算立即回报函数;定义前后方法强化学习稳定控制器立即回报函数为:
其中,a1、a2为立即回报函数权值,![]()
其中,ε为容许误差带,θxz(t)和Δθxz(t)分别为t时刻xz平面上的躯干‑重垂线夹角及其角速度;立即回报函数意在将θxz(t)控制在容许误差带内,同时其变化率Δθxz(t)尽量小;2)左右方向的稳定控制针对仿人机器人前后方向的稳定控制,同样,定义RBF‑Q Learning学习的状态输入为以下:sroll(t)=[θhip_roll(t),θankle_roll(t),θyz(t)]其中,θhip_roll(t)和θankle_roll(t)分别为t时刻仿人机器人离线基础步态中左脚髋关节滚动舵机、踝关节滚动舵机的角度,θyz(t)为t时刻yz平面上的躯干‑重垂线夹角;由于,对左右方向稳定控制则主要取决于左腿髋关节滚动舵机、踝关节滚动舵机决定,故输出行为定义为:aroll(t)=[Δθhip_roll(t),Δθankle_roll(t)]其中,Δθhip_roll(t)和Δθankle_roll(t)分别为髋关节滚动舵机、踝关节滚动舵机的调整角度;考虑使用z平面上的躯干‑重垂线夹角及其角速度评价左右方向上的稳定性,定义左右方法强化学习稳定控制器立即回报函数为:
其中,a1、a2为立即回报函数权值,![]()
其中,ε为容许误差带,θyz(t)和Δθyz(t)分别为t时刻yz平面上的躯干‑重垂线夹角及其角速度;立即回报函数意在将θyz(t)控制在容许误差带内,同时其变化率Δθyz(t)尽量小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510299823.3/,转载请声明来源钻瓜专利网。