[发明专利]基于分布式强化学习和边缘计算的工厂调度方法及系统有效
申请号: | 202111349982.1 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114066232B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 郭洪飞;陈世帆;郭海全;曾云辉;伍泓韬;刘景顺;何智慧;任亚平;张锐 | 申请(专利权)人: | 内蒙古北方重工业集团有限公司;暨南大学;内蒙古工业大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q10/10;G06K9/62;G06N20/00;H04L67/10 |
代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 杨兰兰 |
地址: | 014000 内*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 强化 学习 边缘 计算 工厂 调度 方法 系统 | ||
1.基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述方法包括如下步骤:
步骤S1:初始化本地动作模型和边缘设备;
步骤S2:本地动作模型根据不同流水线的ID生成初始调度规则,并分配到相应的流水线上;
步骤S3:边缘设备对当前环境实时产生的生产信息进行编码,生成能够反映当前时刻生产环境所处状态的特征s,并生成两参数元组(s,ID)和五参数元组(s,a,r,s’,ID),其中的参数分别为:反映当前时刻生产环境状态的特征s,本地动作模型在当前时刻所采取的动作a,生产环境在当前时刻反馈给模型的奖励r,反映下一时刻生产环境的特征s’,流水线的编号ID;
步骤S4:所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,然后转入步骤S3;同时,将五参数元组(s,a,r,s’,ID)发送至部署在云端的云端数据存储器中进行存储;
步骤S5:云端策略模型将对云端数据存储器所存储的数据进行优先级采样;
步骤S6:对云端数据存储器所存储的特征数据依据其重要性进行排序,以此更新云端数据存储器;
步骤S7:在一定的时间间隔t后,对云端策略模型和本地动作模型进行同步,依据云端策略模型更新本地动作模型;
所述步骤S4中,本地动作模型采用分布式强化学习算法,生成适配不同流水线的新的调度规则,具体包括:本地动作模型采用分布式强化学习算法,根据不同流水线的ID,在每一个流水线上采用不同的ε,以不同的概率选择随机的动作,为不同的流水线采用ε-greedy算法生成适配该流水线的新的调度规则;
所述分布式强化学习算法具体包括如下步骤:
S41:在不同的生产环境中运行智能体,存储智能体与环境交互产生的样本数据;
S42:远程同步云端策略模型与本地动作模型的参数;
S43:从生产环境中获取初始状态;
S44:对于时间t=1-T,执行以下过程:
利用当前策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特征s进行编码,并将数据存储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中,并将本地缓存清空,同时计算各个样本的优先级;
利用云端数据对策略模型进行更新,并将云端策略模型同步到本地动作模型。
2.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S1中,初始化本地动作模型和边缘设备,具体包括:设定本地动作模型的基本参数,预设不同流水线的初始调度规则分配策略,设定边缘设备的基本参数和编码算法。
3.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S3中,边缘设备对当前环境实时产生的生产信息进行编码,具体包括:在生产过程中,当每一条流水线根据本地动作模型当前分配的调度规则调度工件时,会在各个流水线上得到相应的调度结果,生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中,由边缘设备对实时产生的生产信息进行编码。
4.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,所述步骤S5具体包括:部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样,并将所采样到的数据作为云端策略模型的输入训练云端策略模型,得到更优的云端策略模型参数。
5.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法,其特征在于,在进行步骤S5和步骤S6时,所述云端策略模型中包含如下算法步骤:
S61:利用从样本池中采样的batch更新网络;
S62:对于时间t=1-T,执行以下过程:
在后台线程中对已按优先级排列的batch进行采样;
执行更新策略;
重新计算并更新云端数据存储器样本池中样本的优先级;
移除云端数据存储器样本池中比较早的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古北方重工业集团有限公司;暨南大学;内蒙古工业大学,未经内蒙古北方重工业集团有限公司;暨南大学;内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111349982.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理