[发明专利]基于强化学习的外骨骼机器人动力辅助控制方法有效

专利信息
申请号: 201911219651.9 申请日: 2019-12-03
公开(公告)号: CN110919655B 公开(公告)日: 2021-06-25
发明(设计)人: 唐昊;陈刚;段峰;戴飞;王彬 申请(专利权)人: 合肥工业大学
主分类号: B25J9/16 分类号: B25J9/16;B25J9/00
代理公司: 合肥晨创知识产权代理事务所(普通合伙) 34162 代理人: 康培培
地址: 230009 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 强化 学习 骨骼 机器人 动力 辅助 控制 方法
【权利要求书】:

1.基于强化学习的外骨骼机器人动力辅助控制方法,其特征在于,包括如下步骤,

步骤1,获取外骨骼机器人动力辅助的状态变量:外骨骼机器人搬运阶段类型Z、疲劳等级P以及工件的重量M;所述外骨骼机器人搬运阶段类型Z包括搬起阶段、平移阶段、卸载阶段和预备阶段;所述疲劳等级P通过SEMG传感器获得;

步骤2,建立“人-外骨骼-生产线”系统的强化学习模型;

步骤3,根据强化学习模型,需要建立外骨骼机器人搬运阶段类型中的各个状态的肌体疲劳数学模型;

步骤4,采用基于模拟退火的Q学习算法对所建立的强化学习模型的优化目标进行控制策略求解;

所述步骤2强化学习模型的建立具体包括,

步骤2.1,确定状态变量,疲劳等级P,其状态空间为Φ1={P1,P2,…PK},当前搬运工件的重量M,其状态空间为Φ2={M1,M2,…MN},外骨骼机器人搬运阶段类型Z,其状态空间为Φ2={Z1,Z2,…ZZ},定义SZ,P,M为系统的联合状态,其相应的状态空间为Φ=Φ1×Φ2×Φ3

步骤S2.2,确定行动,外骨骼机器人的助力权重作为行动;

步骤S2.3,确定代价,代价由外骨骼机器人助力耗电代价k1、外骨骼机器人移动耗电代价k2、搬运工件所得实际报酬k3以及超过疲劳警戒线代价k4四部分组成,计算各阶段决策时刻下的累计代价f′(SZ,P,M,,SZ′,P′,M′),其中SZ′,P′,M′为变化后的状态,为了更深入理解各阶段决策时刻下的累计代价,f′(SZ,P,M,aSZ,P,M,SZ′,P′,M′)也表示为即决策时刻Xd的状态Sd在行动下,跳转到下一决策时刻Xd+1的一步累计代价;

助力权重:外骨骼机器人机械臂与工人上肢负重时的压力分摊系数;

累计代价:在指定时间内总共累计产生的代价和;

所述步骤S2.3决策时刻为搬运阶段改变时或/和疲劳等级发生变化时;

所述累计代价如下,定义搬运阶段类型Z分别用数字0~3表示,疲劳等级P用p表示,工件重量M用m表示;

其中,搬起阶段下,经T时刻下的一步累计代价函数:

式(1)中,β为固定的助力权重系数;k1:外骨骼机器人单位时间助力耗电代价;

平移阶段下,经t1时刻的一步累计代价函数:

K2:外骨骼机器人单位时间移动耗电代价;

卸载阶段下,经T时刻下的一步累计代价函数:

K3:卸载工件完成获得的即时代价,通常为一个负数,表示实际报酬;

预备阶段下,经t2时刻达到站点的一步累计代价函数:

所述步骤3分别建立搬起阶段肌体疲劳数学模型、平移阶段肌体疲劳数学模型、卸载阶段肌体疲劳数学模型以及预备阶段肌体疲劳数学模型,

步骤3.1,建立搬起阶段肌体疲劳数学模型,在搬起阶段中,工人利用外骨骼机器人的支撑力在规定时间搬起工件至一定高度,动态负荷期间上肢疲劳等级随负重的不同而不同;

式(9)中500单位为N,Plift为搬起阶段变化的疲劳等级,P0为当前准备搬运时的疲劳等级,a1、b1、c1、d1为常数;

步骤3.2,建立平移阶段肌体疲劳数学模型,在平移阶段中,工人利用外骨骼机器人将工件搬运至相应存储库,将此阶段变化的疲劳等级定义为Pmove

Pmove=kFt1+Plift (10),

式(10)中t1为平移时间,kF为负荷系数,进一步拟合得到如下关系式:

kFa2F+b2 (11),

式(11)中a2、b2为常数;

步骤3.3,建立卸载阶段肌体疲劳数学模型,在卸载阶段中,工人通过支撑力将工件存放至存储库;

式(12)中500单位为N,Punload为搬起阶段的疲劳等级,a3、b3、c3、d3为常数;Pmin定义为最小疲劳等级,Pmax定义为最大疲劳等级;

步骤3.4,建立预备阶段肌体疲劳数学模型,在预备阶段中,建立“人-外骨骼-生产线”系统返回过程的疲劳恢复数学模型;

式(13)中:Pprepare是恢复后的疲劳等级,由恢复系数Kr、恢复时间t2、恢复前疲劳等级Punload三部分组成;Pmin定义为最小疲劳等级,Pmax定义为最大疲劳等级;

所述步骤4对所建立的强化学习模型的优化目标进行控制策略求解,Ω为优化策略集,在优化策略集Ω中找到一个最优策略a*,使得系统在无穷时段单位时间期望平均代价最小;

式(14)中,Xd为决策时刻,a为优化行动的策略;a*定义为最优助力权重策略Td是对应于决策时刻变量Xd的一个常量值,TD表示为无穷时刻即无穷大,Ea表示对应行动的数学期望;

采用基于模拟退火的Q学习算法对强化学习模型优化目标进行求解,在平均准则和折扣准则下的学习的统一差分公式为

式(15)中,cd表示为决策时刻Xd转换到Xd+1下的差分值,f′(Xd, aX,Xd+1)表示从决策时刻Xd到Xd+1累计的代价,ηd为平均代价,其中,Q(·,·)是在平均准则下对应“状态-行动对”的值,Q值为

式(16)中,是当前学习步长衰减因子;

所述Q学习算法求解步骤如下:

步骤4.1,定义并初始化Q学习算法中的Q值表、样本轨道总数Z'、单条样本轨道学习步长数L、模拟退火温度H以及模拟退火系数ζ,并令当前样本轨道数z=0;

步骤4.2,设置当前决策周期l=0,并随机初始化系统状态sd

步骤4.3,根据Q值表和贪婪策略,选取决策时刻Xd对应状态sd下的贪婪行动agreedy,同时随机选取有效行动arand

若取adarand;否则adagreedy

步骤4.4,执行行动ad,得到样本转移或者观察其中τd是搬运过程的平移搬运时间,δd是恢复过程中从存储库到搬运站点的预备阶段返回时间,ωd=Td+1-Tddd是从Td到Td+1中在搬运站点等待搬运工件的时间;

步骤4.5,通过式计算时间差分cd和更新Q值表

步骤4.6,令l:=l+1,如果lL转到步骤4.4;否则,令H:=ζH,z:=z+1;

步骤4.7,如果z:=Z',算法结束;否则,令l=0并且转到步骤4.3:

上面符号:=为更新赋值符号。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911219651.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top