[发明专利]基于深度Q网络的废品回收机器人控制方法有效

申请号：	201810199112.2	申请日：	2018-03-12
公开（公告）号：	CN108415254B	公开（公告）日：	2020-12-11
发明（设计）人：	朱斐;吴文;伏玉琛;周小科	申请（专利权）人：	苏州大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	苏州简理知识产权代理有限公司 32371	代理人：	朱亦倩
地址：	215000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度网络废品回收机器人控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度Q网络的废品回收机器人控制方法，其方法步骤为：

⑴通过传感系统获取环境信息，包括视觉环境信息和非视觉信息；

⑵根据所述步骤⑴中获取的环境信息，初始化神经网络参数，包括环境状态信息和奖赏信息，并初始化强化学习算法的各项参数；

⑶对周边环境反馈的图像信息进行处理，通过数字化处理将图像信息处理为灰度图像，使用深度卷积网络进行特征提取和训练，将高维度的环境视觉信息转换成低维度的特征信息，低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态s_t；

⑷由所述当前值网络的输出控制机器人的行动；在状态s_t下，根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动a_t，机器人执行行动a_t后，获得新的环境状态s_t+1和立即奖赏r_t；

⑸更新当前值网络参数和目标值网络参数，采用随机小批量梯度下降更新方式更新参数；

当前值网络损失函数计算方式：其中表示下一个状态下的状态动作值，Q(s,a；θ_i)为当前状态下的状态动作值，γ为回报函数的折扣因子，0≤γ≤1，E()为梯度下降算法中的损失函数，r为立即奖赏值，θ表示网络参数；

所述目标值网络在每执行N万步后由当前值网络复制得到；

⑹查看是否满足学习终止条件，若不满足，则返回到步骤⑷继续循环，否则结束；所述学习终止条件为物品脱落，或完成设定步数；

在所述步骤⑷中，设置经验池E，该经验池E为机器人与环境交互后，获得环境反馈的状态信息、奖赏信息，具体为：根据动作值函数Q(s,a)选择动作并执行，将当前状态s、动作a、执行动作所获得立即奖赏r和到达的下一个状态s′作为一个元组保存到经验池E中，并重复上述步骤三～五万步，均存放于经验池E中，所述步骤⑸中的更新当前值网络和目标值网络的参数，需从经验池E中进行采样；

所述步骤⑸从经验池E中采样的样本需根据其优先级别从优选取，该优先级别设置为：每当存放内容至经验池E中，更新一次样本的优先级别，更新公式为：

其中t为该样本被选取的次数，β为使用优先级的影响程度，p_i为第i个样本被选取的概率，在计算完样本优先级后，对其进行归一化操作，公式为：

2.根据权利要求1所述的控制方法，其特征在于：包括传感系统、控制系统、作业系统及驱动系统，

所述传感系统：包括摄像机以及图像采集设备，用于感知机器人面前物体位置信息，通过图像信息表示；

所述控制系统：用于控制机器人抓取手臂抓取物体与放置物体于收纳机构内，以及控制旋转机构的旋转角度；

所述作业系统：包括机器人抓取手臂、旋转机构、收纳机构，用于接收控制系统的信息，执行各项动作；

所述驱动系统：包括电机、蓄电池，用于为作业系统执行控制系统的各项动作提供动力；

所述传感系统采集环境信息和驱动系统信息，并将环境信息和驱动系统信息传入控制系统，由控制系统根据接收到的信息来计算处理，并发送信息于作业、驱动系统驱动机器人执行相应动作。

3.根据权利要求1所述的控制方法，其特征在于：所述当前值网络由三层卷积神经网络和一层全连接层组成，激活函数为relu函数；用于处理经过传感系统处理得到的图像信息，其中卷积神经网络提取图像特征后通过激活函数relu输出动作值函数Q(s,a)，并根据动作值函数Q(s,a)用ε-Greedy贪心策略选择动作。

4.根据权利要求3所述的控制方法，其特征在于：将“当前值网络的输出控制机器人的行动”为：从经验池E中随机抽取若干个样本，将其状态s作为当前值网络的第一层隐藏层的输入，由当前值网络输出动作值函数Q(s,a)，并根据动作值函数选择所采取的动作a_t，机器人执行动作a_t后，获得新的环境状态s_t+1和立即奖赏r_t，并通过当前值网络损失函数调整当前值网络的参数。

5.根据权利要求1所述的控制方法，其特征在于：所述步骤⑶中：

状态S表示为：传感系统感知的环境状态为机器人当前视野内物品的位置信息，以图像方式呈现；

行动a表示为：在当前状态下可以执行的操作集合，包括机器人抓取物品角度、方向操作；

立即奖赏r是：在当前状态下机器人所采取的行动的评价，若机器人抓取物品后物品未脱落，则给一个+1的奖赏；若物品成功放置在收纳机构内，则给奖赏+1000，若物品掉落则给奖赏-1000，其他情况奖赏为0。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810199112.2/1.html，转载请声明来源钻瓜专利网。

上一篇：基于马尔可夫跳变理论的飞轮电池磁轴承系统的控制方法
下一篇：一种执行机构受损下的航天器抗干扰姿控方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度Q网络的废品回收机器人控制方法有效

专利文献下载