[发明专利]一种针对紧急突发状况的舰载机保障作业人员调度方法有效
申请号: | 202210211487.2 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114595958B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 栾添添;付强;孙明晓;姬长宇;马爽;王皓;王涵旭;吴凯 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/26;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 紧急 突发 状况 舰载 保障 作业 人员 调度 方法 | ||
1.一种针对紧急突发状况的舰载机保障作业人员调度方法,其特征在于,包括以下步骤:
步骤1:分析舰载机出动回收流程,明确上述流程的特性;
步骤2:根据步骤1所明确的流程特性,确定环境及智能体,构建马尔可夫决策过程模型作为智能体训练环境,并确定采用多智能体算法求解该模型;
步骤2.1:确定环境与智能体:通过对舰载机出动回收流程中保障工序流程的分析,可确定环境设定为飞行甲板保障机位,在此之上确定智能体;将单个保障小组设定为一个智能体,将原本巨大的动作空间进行拆分,使决策系统转换为多智能体系统,采用多智能体算法进行控制决策;
步骤2.2:确定环境状态空间、动作空间与状态转移;依据步骤2.1确定的环境与智能体,环境状态空间可如下式构建:
式中,station_s为保障机位状态,snum为保障机位序号,ie为机位是否停放舰载机标志位,ia为机位是否发生突发情况标志位,wp为当前机位停放舰载机应被执行的工序;team_s为保障小组状态,也即是各智能体的状态,tc为该智能体所负责工序,tnum为该智能体编号,tp为该智能体当前所在机位,tb为该智能体当前是否正在执行保障工序标志位;
各智能体动作空间即为上述智能体的目标机位,各智能体动作空间大小为保障机位数量;
状态转移依照上述保障工序流程,按照流程逻辑,以规定时间步为标准,进行相应改变,体现在环境状态的各标志位的改变;
步骤2.3:奖励函数确定;为智能体设置即时奖励函数,奖励函数R(s,a)定义为下式:
式中,a,b,c为超参数,是常数,且满足a>b>0>-c,dis为移动距离,long为最大可移动距离;
步骤3:对环境数据进行处理,所述步骤3中环境数据处理过程如下:
设共有n个保障机位,共有4类保障小组,各类保障小组分别有mi个单个保障小组,i为保障小组类别,那么总共状态空间大小为:
如此巨大的状态空间不利于学习,且对于各智能体而言,其余保障工序的环境状态对于自身的学习并非必要信息,于是设定环境状态处理,从巨大的环境状态中为各智能体筛选出自身学习的必要信息,整理后再交付智能体学习;经整理后的环境信息如下式:
式中,state_space_agent为智能体所接收的环境信息,station_s_agent为简化后的保障机位状态,wt为当前机位可被当前智能体执行工序编号;team_s_agent为简化后保障小组状态,op为当前智能体所处机位,ob为当前智能体是否正在执行保障工序,经简化后的状态空间大小为3n×mi×2;
步骤4:保障调度算法设计:设计针对保障人员调度的多智能体算法,并添加无效动作屏蔽、设定针对紧急突发状况的优先经验抽取机制和添加自适应冲突惩罚系数,最后采用次优选择以避免少数的冲突,优化整体训练;
步骤4.1:多智能体算法设计:将SAC算法作为基础算法,SAC算法即Soft Actor Critic算法,该算法属于单智能体算法,将上述单智能体算法转化为多智能体算法求解,针对分布式单智能体算法的环境不稳定问题,为智能体设计共享全局信息的动作价值函数,以评估更新策略网络,实现考虑全局信息的策略更新,实现集中训练-分散执行;
步骤4.2:添加无效动作屏蔽机制,对无实际意义的但可能选中的动作进行屏蔽,将无效动作被选中概率为零,并进一步使其反向传播梯度为零;
步骤4.3:设定针对紧急突发状况的优先经验抽取机制,上述机制优先抽取发生紧急突发状况的经验,并权衡上述经验被选中次数,做出针对紧急突发状况的学习,经验优先级计算如下:
P=ne-ηenc (4)
式中,P为经验优先级,ne为采样该条经验时紧急情况发生数量,η为比例系数,是超参数,nc为该条经验累计被采样次数;
步骤4.4:添加自适应冲突惩罚系数,因不便于直接对冲突动作设定负奖励,故采用自适应冲突惩罚系数来自动调整对于冲突动作的负奖励,优化目标函数如下:
J(δ)=δ·(τ-c) (5)
式中,J为优化目标函数,δ为冲突惩罚系数,τ为目标冲突次数,通常设定为极小的正数即可,c为实际冲突次数;
步骤5:在构建好的环境里训练智能体,直至智能体能够输出较好的调度策略;
步骤6:将完成训练的智能体应用于场景中引导保障人员进行保障作业,此时智能体可将真实数据存储进经验池,以便空闲时间可再次学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210211487.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理