[发明专利]一种离散制造场景中的强化学习奖励自学习方法有效

申请号：	202010005909.1	申请日：	2020-01-03
公开（公告）号：	CN111241952B	公开（公告）日：	2020-11-10
发明（设计）人：	吴宗泽;赖家伦;刘亚强;梁泽逍;曾德宇	申请（专利权）人：	广东工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N20/00
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种离散制造场景中的强化学习奖励自学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种离散制造场景中的强化学习奖励自学习方法，其特征在于：包括如下步骤：

S1：对当前生产线的工序进行细化g∈G＝{g₁,g₂,…,g_N}，其中g为细化后当前工序需达到的目标所对应的状态，智能体Agent到达预定目标g记录为一个交互序列episode，根据初始参数获得g₁作为目标对应的多段episodes，进行GPR模块的训练；

S2：引入基于模型的强化学习方法，将episodes中的状态动作对以及状态的差值△作为训练数据集输入GPR模块，训练得到基于状态差分的系统状态转移模型s_t+1＝f(s_t,a_t)；其中a_t为智能体Agent采取的动作；

S3：根据智能体Agent获得的环境反馈状态s_t，将新的状态s_t同步输入GRP模块、Reward网络、Actor网络、Critic网络中，则Reward网络输出r(s_t)，Actor网络输出a(s_t)，Critic网络输出V(s_t)，所述的GPR模块根据S2中推导获得的状态转移模型最终输出值函数V_g并作为整体的更新方向；

S4：当|V_g-V(s_t)|ε时，为了避免假阳性，人为判断是否完成当前目标下工序的学习，若完成，则认为实现该段工序的学习，即当前工序下的奖励函数也即Reward网络学习完毕，并进行Reward网络的参数保存；根据Reward网络的参数、Actor网络的参数、Critic网络的参数继续进行交互，产生以下一个子目标g_n+1作为更新方向的episodes，用于GPR的更新；

S5：当设定目标G＝{g₁,g₂,…,g_N}全部依次实现时，完成了生产线的工艺学习，并得到了能够进行动作评估的奖励函数，即Reward网络；

S6：然后移除GPR模块，根据现有网络参数，采用计算量低的强化学习算法在线运行。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010005909.1/1.html，转载请声明来源钻瓜专利网。

上一篇：图像特征提取模型的训练方法和图像检索方法
下一篇：智能楼宇信息监控方法、装置、服务器及智能楼宇系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种离散制造场景中的强化学习奖励自学习方法有效

专利文献下载