[发明专利]一种多智能体行动策略自演进生成方法有效
申请号: | 202110609397.4 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113255893B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 王玥;庄星;尹昊;刘劲涛;李柯绪 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高会允 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 行动 策略 演进 生成 方法 | ||
本发明公开了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,适应于战场高动态变化态势下的智能体行动策略快速生成。初始化公共神经网络,公共神经网络包含演员网络和评论家网络。进行初始化设置后,计算当前时间节点执行完动作后获得的回报值;更新时间节点t,即t自增1。计算当前时间序列内最后一个时间节点的t的状态奖励值;更新时间节点t+1的状态奖励值,更新当前线程中演员网络参数的梯度值,更新当前线程中评论家网络参数的梯度值;更新公共神经网络的两个全局参数。公共神经网络训练完成后,形成策略生成模型,面对新的空战环境变化,将新的空战环境的状态特征和动作输入至所述策略生成模型,输出行动策略。
技术领域
本发明涉及智能体技术领域,具体涉及一种多智能体行动策略自演进生成方法。
背景技术
无人设备在真实的自然环境中,可以视为具有感知和行动能力的智能体,由于态势信息通常处于不断变化的过程中,在短时间内可能出现周围环境、可分配资源、智能体宏观任务以及智能体自身能力等信息的快速变化。在有限的行动规划时间里,快速生成行动策略,实现多智能体统一部署、协同作战的能力,是目前多智能体复杂系统行动策略研究的重点方向。其在智能调度、工业智能化以及复杂军事作战等领域有着极为广泛的应用。
通常采用的层次分析法、证据融合方法与多属性决策等理论等主要依靠专家知识与经验库进行决策生成,既缺少足够多的案例以供判断,智能体也不具备自我探索能力,同时在真实的战场环境下,没有考虑到整个智能系统中智能体的增减与集群化;基于神经网络的策略生成方法依赖大规模的监督学习,面对小样本的作战案例无法有效给出行动策略。
因此如何在战场高动态变化态势下进行智能体行动策略的快速生成是目前亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种多智能体行动策略自演进生成方法,具有较强的鲁棒性与自适应能力,同时兼顾单智能体与多智能体的多层级策略生成要求,适应于战场高动态变化态势下的智能体行动策略快速生成。
为达到上述目的,本发明的技术方案包括如下步骤:
步骤1:初始化公共神经网络,公共神经网络包含演员网络和评论家网络,设置两个全局参数分别θ和w,其中演员网络参数为θ',评论家网络参数为w'。
设置全局迭代次数T,全局最大迭代次数TMAX。
单次线程的单次迭代中的时间序列最大长度tMAX,公共神经网络的输入为状态特征和动作,输出为行动策略;状态特征隶属于状态特征集S,动作隶属于动作集A,行动策略隶属于策略集π(a/s);其中a代表当前行动策略对应动作,s代表当前的状态;熵系数为c;衰变因子为γ。
步骤2:设置当前线程的单次迭代中的时间节点t,t的初始值为1;设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0。
步骤3:将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数,即θ'=θ,w'=w。
步骤4:初始化状态特征集S。
步骤5:基于部分设定规则以及智能体的当前状态特征st,根据策略集π(a/s),智能体做出当前策略的动作at。
步骤6:计算当前时间节点执行完动作at后获得的回报值rt;更新时间节点t,即t自增1,更新智能体的状态特征为st+1。
步骤7:若t>tMAX,则转向步骤8,否则返回执行步骤5。
步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(st,t)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609397.4/2.html,转载请声明来源钻瓜专利网。