[发明专利]基于强化学习的外骨骼机器人动力辅助控制方法有效

申请号：	201911219651.9	申请日：	2019-12-03
公开（公告）号：	CN110919655B	公开（公告）日：	2021-06-25
发明（设计）人：	唐昊;陈刚;段峰;戴飞;王彬	申请（专利权）人：	合肥工业大学
主分类号：	B25J9/16	分类号：	B25J9/16;B25J9/00
代理公司：	合肥晨创知识产权代理事务所(普通合伙) 34162	代理人：	康培培
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习骨骼机器人动力辅助控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于强化学习的外骨骼机器人动力辅助控制方法，其特征在于，包括如下步骤，

步骤1，获取外骨骼机器人动力辅助的状态变量:外骨骼机器人搬运阶段类型Z、疲劳等级P以及工件的重量M；所述外骨骼机器人搬运阶段类型Z包括搬起阶段、平移阶段、卸载阶段和预备阶段；所述疲劳等级P通过SEMG传感器获得；

步骤2，建立“人-外骨骼-生产线”系统的强化学习模型；

步骤3，根据强化学习模型，需要建立外骨骼机器人搬运阶段类型中的各个状态的肌体疲劳数学模型；

步骤4，采用基于模拟退火的Q学习算法对所建立的强化学习模型的优化目标进行控制策略求解；

所述步骤2强化学习模型的建立具体包括，

步骤2.1，确定状态变量,疲劳等级P，其状态空间为Φ₁＝{P₁,P₂,…P_K}，当前搬运工件的重量M，其状态空间为Φ₂＝{M₁,M₂,…M_N}，外骨骼机器人搬运阶段类型Z，其状态空间为Φ₂＝{Z₁,Z₂,…Z_Z}，定义S_Z,P,M为系统的联合状态，其相应的状态空间为Φ＝Φ₁×Φ₂×Φ₃；

步骤S2.2，确定行动，外骨骼机器人的助力权重作为行动；

步骤S2.3，确定代价，代价由外骨骼机器人助力耗电代价k₁、外骨骼机器人移动耗电代价k₂、搬运工件所得实际报酬k₃以及超过疲劳警戒线代价k₄四部分组成，计算各阶段决策时刻下的累计代价f′(S_Z,P,M,,S_{Z′,P′,M′})，其中S_{Z′,P′,M′}为变化后的状态，为了更深入理解各阶段决策时刻下的累计代价，f′(S_Z,P,M,a_SZ,P,M,S_{Z′,P′,M′})也表示为即决策时刻X_d的状态S_d在行动下，跳转到下一决策时刻X_d+1的一步累计代价；

助力权重：外骨骼机器人机械臂与工人上肢负重时的压力分摊系数；

累计代价：在指定时间内总共累计产生的代价和；

所述步骤S2.3决策时刻为搬运阶段改变时或/和疲劳等级发生变化时；

所述累计代价如下，定义搬运阶段类型Z分别用数字0～3表示，疲劳等级P用p表示，工件重量M用m表示；

其中，搬起阶段下，经T时刻下的一步累计代价函数：

式(1)中，β为固定的助力权重系数；k₁：外骨骼机器人单位时间助力耗电代价；

平移阶段下，经t₁时刻的一步累计代价函数：

K₂：外骨骼机器人单位时间移动耗电代价；

卸载阶段下，经T时刻下的一步累计代价函数：

K₃：卸载工件完成获得的即时代价，通常为一个负数，表示实际报酬；

预备阶段下，经t₂时刻达到站点的一步累计代价函数：

所述步骤3分别建立搬起阶段肌体疲劳数学模型、平移阶段肌体疲劳数学模型、卸载阶段肌体疲劳数学模型以及预备阶段肌体疲劳数学模型，

步骤3.1，建立搬起阶段肌体疲劳数学模型，在搬起阶段中，工人利用外骨骼机器人的支撑力在规定时间搬起工件至一定高度，动态负荷期间上肢疲劳等级随负重的不同而不同；

式(9)中500单位为N，P_lift为搬起阶段变化的疲劳等级，P₀为当前准备搬运时的疲劳等级，a₁、b₁、c₁、d₁为常数；

步骤3.2，建立平移阶段肌体疲劳数学模型，在平移阶段中，工人利用外骨骼机器人将工件搬运至相应存储库，将此阶段变化的疲劳等级定义为P_move；

P_move＝k_Ft₁+P_lift (10),

式(10)中t₁为平移时间，k_F为负荷系数，进一步拟合得到如下关系式：

k_F＝a₂F+b₂ (11),

式(11)中a₂、b₂为常数；

步骤3.3，建立卸载阶段肌体疲劳数学模型，在卸载阶段中，工人通过支撑力将工件存放至存储库；

式(12)中500单位为N，P_unload为搬起阶段的疲劳等级，a₃、b₃、c₃、d₃为常数；P_min定义为最小疲劳等级，P_max定义为最大疲劳等级；

步骤3.4，建立预备阶段肌体疲劳数学模型，在预备阶段中，建立“人-外骨骼-生产线”系统返回过程的疲劳恢复数学模型；

式(13)中：P_prepare是恢复后的疲劳等级，由恢复系数K_r、恢复时间t₂、恢复前疲劳等级P_unload三部分组成；P_min定义为最小疲劳等级，P_max定义为最大疲劳等级；

所述步骤4对所建立的强化学习模型的优化目标进行控制策略求解，Ω为优化策略集，在优化策略集Ω中找到一个最优策略a^*，使得系统在无穷时段单位时间期望平均代价最小；

式(14)中，X_d为决策时刻，a为优化行动的策略；a^*定义为最优助力权重策略T_d是对应于决策时刻变量X_d的一个常量值，T_D表示为无穷时刻即无穷大，E_a表示对应行动的数学期望；

采用基于模拟退火的Q学习算法对强化学习模型优化目标进行求解，在平均准则和折扣准则下的学习的统一差分公式为

式(15)中，c_d表示为决策时刻X_d转换到X_d+1下的差分值，f′(X_d, a_X,X_d+1)表示从决策时刻X_d到X_d+1累计的代价，η_d为平均代价，其中，Q(·,·)是在平均准则下对应“状态-行动对”的值，Q值为

式(16)中，是当前学习步长衰减因子；

所述Q学习算法求解步骤如下：

步骤4.1，定义并初始化Q学习算法中的Q值表、样本轨道总数Z'、单条样本轨道学习步长数L、模拟退火温度H以及模拟退火系数ζ，并令当前样本轨道数z＝0；

步骤4.2，设置当前决策周期l＝0，并随机初始化系统状态s_d；

步骤4.3，根据Q值表和贪婪策略，选取决策时刻X_d对应状态s_d下的贪婪行动a_greedy，同时随机选取有效行动a_rand；

若取a_d＝a_rand；否则a_d＝a_greedy；

步骤4.4，执行行动a_d，得到样本转移或者观察其中τ_d是搬运过程的平移搬运时间，δ_d是恢复过程中从存储库到搬运站点的预备阶段返回时间，ω_d＝T_d+1-T_d-τ_d-δ_d是从T_d到T_d+1中在搬运站点等待搬运工件的时间；

步骤4.5，通过式计算时间差分c_d和更新Q值表

步骤4.6，令l:＝l+1，如果lL转到步骤4.4；否则，令H:＝ζH，z:＝z+1；

步骤4.7，如果z:＝Z'，算法结束；否则，令l＝0并且转到步骤4.3：

上面符号:＝为更新赋值符号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911219651.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种具有褶皱消除功能的面料加工用杂线处理装置
下一篇：一种液晶偏振光栅级联器件及其衍射角度调控方法

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的外骨骼机器人动力辅助控制方法有效

专利文献下载