[发明专利]一种基于强化学习的流水车间加工调度方法有效

申请号：	202211541416.5	申请日：	2022-12-02
公开（公告）号：	CN115857451B	公开（公告）日：	2023-08-25
发明（设计）人：	杜利珍;宣自风;徐杰;罗凯;刘春玲;张亚军;叶涛	申请（专利权）人：	武汉纺织大学
主分类号：	G05B19/418	分类号：	G05B19/418
代理公司：	武汉泰山北斗专利代理事务所(特殊普通合伙) 42250	代理人：	程千慧
地址：	430074 ***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习流水车间加工调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的流水车间加工调度方法，其特征在于，包括以下步骤：

步骤1、确定工序数量、需要加工的工件数量以及每个工件在不同工序上的加工时间，设每个工件的加工工序均一致，首道加工工序为起始工序，加工序列即为将不同工件放入起始工序进行加工的先后顺序；

步骤2、将剩余待加工的工件序号作为状态，将下一次起始工序选择加工的工件序号作为可选的动作，每个状态下的不同动作均对应不同的状态-动作权重值，通过优先选择权重值更大的状态和动作，生成加工序列；

步骤3、按顺序计算加工序列中每个工件的最小化最大完工时间

makespan，通过Q-learning算法更新加工每个工件时对应的状态和动作的状态-动作权重值，所有工件计算完毕后，本次迭代完成，判断是否达到预设最大迭代次数，若是，转到下一步，否则迭代次数加1，转到上一步；

计算每个工件对应的最小化最大完工时间makespan的方法为：

排列构造一个n×m的二维矩阵，矩阵的行代表已加工工件，按加工先后顺序由上到下进行排列，矩阵的列代表加工工序，由左到右代表由先到后的加工工序，矩阵中的元素为对应工件在对应工序下加工的所需时间，该二维矩阵有n+m-1条副对角线，取每条副对角线上的最大值进行求和得到最小化最大完工时间makespan；

步骤4、保存最后一次迭代的权重值作为最终权重值；

步骤5、利用最终权重值进行状态和动作的选择，得到最优加工序列。

2.根据权利要求1所述的基于强化学习的流水车间加工调度方法，其特征在于，所述步骤3中，权重值的更新公式为：

Q’＝Q+ALPHA×[reward+GAMMA×max(Q(s’,a’))-Q]

公式中，Q’为当前状态和动作对应的更新后的权重值，Q为当前状态和动作对应的更新前的权重值，Q(s’,a’)为下一步的所有可行状态下的不同动作对应的状态-动作权重值集合，ALPHA和GAMMA为预设值,reward为奖励值，计算公式为：

3.根据权利要求2所述的基于强化学习的流水车间加工调度方法，其特征在于，步骤2中,所有状态-动作的初始权重值均为0。

4.根据权利要求2所述的基于强化学习的流水车间加工调度方法，其特征在于，所述步骤2中，通过随机选择确定初始加工序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉纺织大学，未经武汉纺织大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211541416.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载