[发明专利]基于强化学习的生产控制方法有效
| 申请号: | 201910812303.6 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110517002B | 公开(公告)日: | 2022-11-15 |
| 发明(设计)人: | 孙立民;夏金 | 申请(专利权)人: | 烟台大学 |
| 主分类号: | G06Q10/08 | 分类号: | G06Q10/08;G06Q10/06;G06Q30/06;G06Q50/04;G06K9/62;G06N20/00 |
| 代理公司: | 烟台双联专利事务所(普通合伙) 37225 | 代理人: | 王娟 |
| 地址: | 264003 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明是一种基于强化学习的生产控制方法,对订单变更问题使用半马尔可夫决策模型建模,综合考虑企业实际生产环节中的设备使用情况、产品的收益、库存开销以及订单的违约赔偿等因素,将企业收益最大化和变更前后整体生产决策差异最小化作为优化目标,采用动态改变探索速率和学习速率的Q‑learning算法对生产再决策问题进行优化。数值实验证明,所提出的方法能够快速解决生产再决策问题。 | ||
| 搜索关键词: | 基于 强化 学习 生产 控制 方法 | ||
【主权项】:
1.一种基于强化学习的生产控制方法,其特征在于包括以下步骤:/n(1)、订单状态巡查:接到变更通知后,将生产线暂停生产,巡查正在生产的订单的状态而得到的订单临时状态表;/n(2)、生产控制建模:将订单临时状态表体细分到每一个订单中每一种产品的每步工序,此工序即为对应订单的生产单元,用Oi,j,k表示,其中,i=1,…,L表示对应的第i个订单;j=1,…,M表示对应的是该订单的第j种产品;k=1,…,N表示对应的是该产品的第k步工序;首先定义生产控制系统的状态;/n定义:系统的第t个决策对应的状态St:/nSt=(N1,1,1,N1,1,2,...,Ni,j,k,...,NL,M,N,Et) (1)/n式中,i=1,…,L;j=1,…,M;k=1,…,N;其中,Ni,j,k表示第i个订单中第j种产品处于第k步工序的产品数量,也是对应生产单元Oi,j,k的产品数量,Et表示当前时刻设备的使用状况;每步生产安排就是改变每个生产单元Oi,j,k中产品的数量Ni,j,k,Ni,j,k的变化会导致系统状态发生变化,系统的下一个状态St+1仅与当前状态St有关,当所有订单的所有产品生产安排完成后,生产控制随之完成;/n所建立的生产控制模型包括Agent及生产控制环境,所述Agent包括行为空间和决策模块;所述生产控制环境包含互相关联并作为决策模块的仓储管理模块、设备管理模块和收益计算模块;/n所述决策模块通过Q-learning算法进行训练,训练步骤为:/n步骤1、获取状态空间和行为空间,所述状态空间依据订单临时状态表建立,所述行为空间是可执行的行为的集合,所述行为是指各生产单元根据所选择的生产数量进行生产;同时,初始化探索速率ε和学习效率α,并初始化Q值函数;/n步骤2、下列步骤2.1至2.3构成一个完整的episode,重复所述episode直至达到预设的最大episode运行次数:/n步骤2.1、从状态空间随机选择一个状态作为初始状态;/n步骤2.2、重复步骤2.2.1至2.2.3直至达到预设的最大循环次数:/n步骤2.2.1、以ε的概率随机选择一个行为,以1-ε的概率根据当前策略选择最佳行为a;/n步骤2.2.2、在当前状态s的基础上执行行为a,获得下一状态s’以及得到执行行为a所获得的奖励r;/n步骤2.2.3、根据获得的奖励更新Q值函数;/n步骤2.3、根据当前的episode运行次数修正探索速率ε和学习效率α,修正时,随着episode运行次数的增大逐渐减小探索速率ε和学习效率α;/n步骤3、将得到的Q值函数应用于决策模块进行决策。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台大学,未经烟台大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910812303.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种时效性客房商品去库存的方法、装置及系统
- 下一篇:智能试验送检系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





