[发明专利]一种基于深度强化学习的垃圾分拣装置与方法在审

专利信息
申请号: 201911383566.6 申请日: 2019-12-27
公开(公告)号: CN110963209A 公开(公告)日: 2020-04-07
发明(设计)人: 胡青阳;叶晶晶;高思斌;王瑞琰 申请(专利权)人: 中电海康集团有限公司
主分类号: B65F1/14 分类号: B65F1/14;B65F1/00;G06K17/00;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨天娇
地址: 311121 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 垃圾 分拣 装置 方法
【权利要求书】:

1.一种基于深度强化学习的垃圾分拣装置,其特征在于,所述的基于深度强化学习的垃圾分拣装置包括工作台,以及设置在所述工作台上的机械臂、AI计算单元和摄像头,其中:

所述工作台上设有用于放置待分拣垃圾的待分拣区域;

所述摄像头用于定时获取图像数据,并将所述图像数据发送至所述AI计算单元,所述图像数据包含待分拣区域中待分拣垃圾的情况以及机械臂的状态;

所述AI计算单元用于根据所述摄像头获取的图像数据,采用深度强化学习模型计算当前机械臂的最优行动,输出对应的控制指令发送至机械臂;

所述机械臂用于根据所述AI计算单元输出的控制指令动作,对待分拣垃圾进行抓取、移动和投放操作,完成垃圾分拣。

2.如权利要求1所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型的智能体为机械臂、摄像头和AI计算单元构成的整体;

所述深度强化学习模型的状态为待分拣区域中待分拣垃圾的情况以及机械臂的状态;

所述深度强化学习模型的动作空间为机械臂的控制指令的集合;

所述深度强化学习模型的奖励的设置为对正确的垃圾分拣动作给予正奖励,对错误的垃圾分拣动作给予负奖励;

所述深度强化学习模型的策略为状态到动作的映射,即摄像头获取的图像数据到机械臂的动作的映射。

3.如权利要求2所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述深度强化学习模型中的值函数的构建过程,包括以下步骤:

令所述摄像头所捕捉到的图像的集合为状态集S,其中si为i时刻的图像,si∈S,令机械臂的控制指令的集合为指令集A,ai为i时刻的机械臂接收的控制指令,ai∈A,定义状态到动作的映射,即摄像头状态s下,选取机械臂控制指令a的策略π,a=π(s);定义奖励函数R:即状态s下采取动作a所获得的奖励为r,则定义所述深度强化学习模型中的值函数为:

其中,Qπ(s,a)为状态s下采取动作a的Q值,ri为i时刻智能体获得的奖励,γ为折扣因子,γ∈[0,1],γi为i时刻的折扣因子。

4.如权利要求3所述的基于深度强化学习的垃圾分拣装置,其特征在于,所述值函数的网络参数为θi时的损失函数公式定义为:

Lii)=Es,a,r,s′[(y-Q(s,a;θi))2]+Es,a,r[Vs′[y]]

其中,Q*(s,a)表示Q值估计网络,E表示求取期望,Lii)为值函数的网络参数为θi时的损失函数值,Q(s,a;θi)为当前值函数,s′为下一个状态,a′为下一个状态的动作,V为值函数,Q*(s′,a′)表示s′状态下采取a′动作的Q值,y表示状态动作下的目标Q值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电海康集团有限公司,未经中电海康集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911383566.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top