[发明专利]多站点传送带给料生产加工站系统的优化控制方法无效
申请号: | 200910251703.0 | 申请日: | 2009-12-31 |
公开(公告)号: | CN101788787A | 公开(公告)日: | 2010-07-28 |
发明(设计)人: | 唐昊;周雷;韩江洪;程文娟;张建军;岳峰;陆阳 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 安徽合肥华信知识产权代理有限公司 34112 | 代理人: | 余成俊 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多站点传送带给料生产加工站系统的优化控制方法。根据站点自身信息和相邻站点之间交互信息,分别构建性能函数反应项和扩散项。反应项看作为站点自身信息的反馈,扩散项则看作是下游站点对上游站点的反馈。通过反应扩散思想的引入和设计新的性能函数,相比仅依赖于站点自身信息的方法,各工作站的负载平衡性得到较好改善,整个系统的工件处理率也明显提高,并且该方法能够有效解决大规模多智能体系统的“维数灾”和“建模难”问题。同时,通过本发明构建的函数,针对折扣和平均两种性能准则问题,还可以建立统一的连续时间多智能体学习公式和优化算法。 | ||
搜索关键词: | 站点 传送 带给 生产 加工 系统 优化 控制 方法 | ||
【主权项】:
1.多站点传送带给料生产加工站系统的优化控制方法,所述系统包括有传送带,传送带一侧设置有多个加工站点,每个加工站点包括加工主体,临时存放待加工的工件的缓冲库,存放成品工件的储藏库,以及观察获取从传送带上游向加工主体方向传递的、待加工工件的位置信息的前视传感器;特征在于:将每个加工站点看作为一个智能体,多站点传送带给料生产加工站系统看成多智能体系统模型;定义每个加工站点中缓冲库的空余量为其自身状态,多智能体系统模型状态的演化用各站点的缓冲库空余量的变化情况描述,所述缓冲库空余量的取值范围构成各个站点智能体的状态空间;定义每个智能体中前视传感器的前视距离为其行动,前视传感器的可视范围构成行动集;优化目标为选择系统各站点在各个状态下应采取的最优前视距离,即最优控制策略,使得系统在该策略控制下长期运行的工件流失率最小或加工率最大;所述控制方法的主要技术是基于性能势理论和反应扩散思想,定义由反应项和扩散项构成的性能函数,并采用强化学习方法实现系统优化控制策略的在线求解和运行,所述优化控制方法的步骤为:(1)系统定义及初始化:即定义系统的状态、行动等数学模型要素,初始化站点的随机控制策略、各个站点的状态-行动对值函数Qi(si,vi(si))、及相关算法参数,其中Qi(si,vi(si))表示站点i在自身状态si时执行行动vi(si)的代价性能值;(2)系统决策时刻定义:传送带匀速运行,待加工的工件在传送带上按泊松过程随机到达第一个加工站点,定义任意加工站点从传送带上下载一个工件之后的时间、或加工完缓冲库里的一个工件之后的时间为所述加工站点的决策时刻,在每个决策时刻,理论上只存在一个决策站点;(3)系统优化控制过程:决策站点i根据其当前策略,确定站点执行行动,记录样本数据信息,计算反应项、扩散项及性能函数,并更新其状态-行动对值函数Qi(si,vi(si)),具体步骤如下:(3.1)在系统决策时刻,查看当前决策站点i对应的缓冲库状态信息si,按站点i的当前随机控制策略确定执行行动vi(si),并获取样本数据信息;若缓冲库为空,则vi(si)=∞,加工主体一直等待,直到传送带上有工件到达并将到达的工件下载到缓冲库;若缓冲库已满,则vi(si)=0,加工主体从缓冲库中取出一个工件进行加工,加工时间可服从一般的随机分布;否则,通过前视传感器查看传送带上前方一定距离vi(si)内有无工件,若有工件,则加工主体等待第一个工件到达该站,并下载到缓冲库,不然则直接从缓冲库中取出一个工件进行加工,加工完毕后放入储藏库;以上过程需记录样本数据信息,若决策站点i需等待则记录其等待时间w(即两决策时间间隔)、相邻下游站点i+1的缓冲库空余量si+1、自身缓冲库空余量si,否则记录站点i的工件加工时间τ、决策间隔时间w=max{vi(si),τ}、相邻下游站点i+1的缓冲库空余量si+1和自身缓冲库空余量si;(3.2)根据样本数据信息<si,vi(si),τ,w,si+1>,计算多智能体系统模型的反应项和扩散项,其中,反应项:定义反映决策站点等待时间的等待代价为反应项,即决策站点在等待过程所付出的代价,若决策站点等待工件到达,反应项记为f1=K1*Tα(w);若决策站点进行工件加工,记为f1=K1*(Tα(w)-Tα(τ)),其中,K1为站点的每单位时间的等待代价,α>0为常数折扣因子,T为一个算子,且对于任意正常数δ>0,有
当α趋向0时,有T0(δ)=δ;扩散项:定义决策站点i与下游相邻站点i+1之间的缓冲库空余量差值为扩散项,即反馈代价项,其表达式为f2=K2*(si+1-si)*Tα(w),其中K2为该相邻两个站点单位缓冲库空余量差值的单位时间反馈代价;(3.3)根据反应项和扩散项构造多智能体系统模型的性能函数,其表达式为
再采用对折扣和平均性能准则统一的连续时间强化学习公式
进行值函数更新,其中si'为系统在状态si采用行动vi(si)后运行到的下一状态,γ为学习步长,d为行动集D中的任一元素,
为站点i的平均代价的估计值,等于当前时刻为止系统运行累积的无折扣代价总和与总运行时间的商;(3.4)根据站点i的值函数Qi(si,vi(si)),改进其随机控制策略;(3.5)判断是否满足给定的算法停止条件,若不满足,则转入下一决策阶段,即返回(3.1)执行新的随机控制策略;(4)若算法停止,则按最终的优化策略控制系统运行,实现系统优化目标。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910251703.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种风能与太阳能互补电动汽车
- 下一篇:一种动态腐蚀试验方法及其设备