[发明专利]一种基于深度强化学习的垃圾分拣装置与方法在审
申请号: | 201911383566.6 | 申请日: | 2019-12-27 |
公开(公告)号: | CN110963209A | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 胡青阳;叶晶晶;高思斌;王瑞琰 | 申请(专利权)人: | 中电海康集团有限公司 |
主分类号: | B65F1/14 | 分类号: | B65F1/14;B65F1/00;G06K17/00;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 311121 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 垃圾 分拣 装置 方法 | ||
1.一种基于深度强化学习的垃圾分拣装置,其特征在于,所述的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头,其中:
所述工作台上设有用于放置待分拣垃圾的待分拣区域;
所述摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述AI计算单元用于根据所述摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;
所述机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。
2.如权利要求1所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体;
所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态;
所述深度强化学习模型的动作空间为机械臂的控制指令的集合;
所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励;
所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。
3.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型中的值函数的构建过程,包括以下步骤:
令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:
其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。
4.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述值函数的网络参数为θi时的损失函数公式定义为:
Li(θi)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]]
其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Li(θi)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911383566.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型平板除雾器
- 下一篇:一种适用于转炉冶炼低碳低硅钢的脱氧控制方法