[发明专利]基于深度Q网络的废品回收机器人控制方法有效
申请号: | 201810199112.2 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108415254B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 朱斐;吴文;伏玉琛;周小科 | 申请(专利权)人: | 苏州大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 苏州简理知识产权代理有限公司 32371 | 代理人: | 朱亦倩 |
地址: | 215000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 网络 废品 回收 机器人 控制 方法 | ||
本发明公开了一种基于深度Q网络的废品回收机器人控制方法及其装置,其特征在于:所述传感系统:用于感知机器人面前物体位置信息,通过图像信息表示;所述控制系统:用于控制机器人抓取手臂抓取物体与放置物体于收纳机构内;所述作业系统:接收控制系统的信息,执行各项动作;所述驱动系统:用于为作业系统执行控制系统的各项动作提供动力;所述传感系统采集环境信息和驱动系统信息,并将环境信息和驱动系统信息传入控制系统,由控制系统根据接收到的信息来计算处理,并发送信息于作业、驱动系统驱动机器人执行相应动作。本发明运用人工智能领域的强化学习算法,能够自主学习更新神经网络的参数,以使机器人达到回收物品的控制效果。
技术领域
本发明属于人工智能以及控制技术领域,尤其涉及一种基于深度Q网络的废品回收机器人控制方法,可以进行自我学习,完成机器人对物品的抓取控制。
背景技术
近年来,人工智能在家庭生活中的应用越来越广泛,形成了智能家居的概念。其中,扫地机器人就是一种使用具有人工智能的小型自动控制机器人,用于打扫家庭卫生。目前,扫地机器人在市场中已经得到了良好的应用,扫地机器人的应用使人们从家务琐事中部分解放了出来,得到了人们的好评。
然而,目前的扫地机器人清洁对象主要针对地面灰尘,只能通过吸尘的方法,清扫地面,因此仅适用于地面环境单一的家庭清洁,对于一些较大的废弃物,如废弃瓶、罐,大多数扫地机器人会束手无策,只能标记为障碍物,直接绕行。
显然,只能清扫地面灰尘的扫地机器人并不能完全满足较大场合、环境更为复杂(如路面)的需要,从而使得扫地机器人使用范围受到局限。
发明内容
本发明目的是:提供一种基于深度Q网络的废品回收机器人控制方法及其装置,通过对控制方法的改良,通过自我学习能够更快的适应新的环境,保证策略更新的有效性,更快适应不同环境、不同清洁对象的需要,大大拓展适用范围。
本发明的技术方案是:一种基于深度Q网络的废品回收机器人装置,包括传感系统、控制系统、作业系统及驱动系统,其特征在于:
所述传感系统:包括摄像机以及图像采集设备,用于感知机器人面前物体位置信息,通过图像信息表示;
所述控制系统:用于控制机器人抓取手臂抓取物体与放置物体于收纳机构内,以及控制旋转机构的旋转角度;
所述作业系统:包括机器人抓取手臂、旋转机构、收纳机构,用于接收控制系统的信息,执行各项动作;
所述驱动系统:包括电机、蓄电池,用于为作业系统执行控制系统的各项动作提供动力;
所述传感系统采集环境信息和驱动系统信息,并将环境信息和驱动系统信息传入控制系统,由控制系统根据接收到的信息来计算处理,并发送信息于作业、驱动系统驱动机器人执行相应动作。
本发明的另一个技术方案是:一种基于深度Q网络的废品回收机器人装置的控制方法:其方法步骤为:
⑴通过传感系统获取环境信息,包括视觉环境信息和非视觉信息;
⑵根据所述步骤⑴中获取的环境信息,初始化神经网络参数,包括环境状态信息和奖赏信息,并初始化强化学习算法的各项参数;
⑶对周边环境反馈的图像信息进行处理,通过数字化处理将图像信息处理为灰度图像,使用深度卷积网络进行特征提取和训练,将高维度的环境视觉信息转换成低维度的特征信息,低维度特征信息与所述非视觉信息作为当前值网络和目标值网络的输入状态st;
⑷由所述当前值网络的输出控制机器人的行动;在状态st下,根据当前值网络利用强化学习算法中的动作值函数Q(s,a)计算获得行动at,机器人执行行动at后,获得新的环境状态st+1和立即奖赏rt;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810199112.2/2.html,转载请声明来源钻瓜专利网。