[发明专利]一种基于自适应动态规划的多智能体跟随控制方法和系统在审
| 申请号: | 202211501456.7 | 申请日: | 2022-11-28 |
| 公开(公告)号: | CN115755615A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 杨根;张弓;袁海;张金越;王昕彤;吴月玉 | 申请(专利权)人: | 广州先进技术研究所 |
| 主分类号: | G05B13/04 | 分类号: | G05B13/04 |
| 代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 杨艳 |
| 地址: | 511458 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 自适应 动态 规划 智能 跟随 控制 方法 系统 | ||
本发明实施例提供一种基于自适应动态规划的多智能体跟随控制方法和系统,根据跟随者和领航者的状态和控制量的差异,得到跟随状态误差和控制量误差。以最小化跟随状态误差和消耗的能量为目标定义效用函数,并根据效用函数得到代价函数,以动态规划的思想求解最优控制策略,由于代价函数与控制策略均是非显式表达的,故采用动作神经网络和评价神经网络分别拟合控制策略和代价函数,采用迭代计算的方式求解得出最优控制策略,以采集的领航者与跟随者的状态值和控制量的值对动作神经网络和评价神经网络进行训练,可使跟随者以最小的轨迹误差和控制能量实现对领航者的跟随运动,不仅适用于线性系统的跟随者,也适用于非线性系统的跟随者。
技术领域
本发明实施例涉及多智能体跟随技术领域,尤其涉及一种基于自适应动态规划的多智能体跟随控制方法和系统。
背景技术
随着技术的发展,智能体在近几十年来引起了研究人员的极大关注,他们在通信、计算机技术、生物学、社会行为学等各个方面,都有潜在的研究价值。而随着智能时代的逐渐到来,智能体也广泛的应用在生活的各个方面,但随着应用功能的日趋复杂,通过多个简单的智能体组成的多智能体系统比单一智能体具有更大的优势。多智能体系统在军事、航天、工业等各个领域都有广泛的应用,例如无人机的编队飞行,多个卫星进行协同运行、智能体车的编队运输等等。所以,多智能体系统的协调控制在获得广泛的研究。
现有几乎是中多智能体的常规控制方法不考虑代价函数,无法实现最优控制。当前使用的最优控制方法主要采用代数计算的方法求解最优控制策略,而非数据驱动的方法。当前使用的最优控制方法主要针对线性系统,无法求解非线性系统的最优控制策略。
发明内容
本发明实施例提供一种基于自适应动态规划的多智能体跟随控制方法和系统,采用基于数据的自适应动态规划方法而非解析公式的方法求解最优控制策略,可使跟随者以最小的轨迹误差和控制能量实现对领航者的跟随运动。
第一方面,本发明实施例提供一种基于自适应动态规划的多智能体跟随控制方法,所述多智能体包括一个领航者和至少一个跟随者,所述跟随控制方法包括:
步骤S1、基于领航者的状态量确定跟随者的状态方程、控制量,基于跟随者的状态方程确定跟随者与领航者间的跟随状态误差,以及跟随者的控制量误差;
步骤S2、以跟随者的跟随状态误差和消耗能量最小为目标确定效用函数,基于所述效用函数确定使得跟随者能量最小化的代价函数,基于所述代价函数确定控制误差函数;
步骤S3、基于迭代方法求解所述控制误差函数,基于预设的神经网络拟合所述控制误差函数和所述代价函数,以在迭代过程中逐步拟合出最优的控制误差函数,基于最优的控制误差函数确定最优控制策略。
作为优选的,所述步骤S1具体包括:
确定领航者的当前时刻状态量ξ、下一时刻状态量ξ′;跟随者的当前时刻状态量λ,下一时刻状态量λ′;确定跟随者的状态方程:
λ′=f(λ)+g(λ)v(λ)
上式中,f(·)为状态耦合函数,g(·)为输入耦合函数,v(·)为跟随者的控制策略函数,v(λ)为跟随者当前时刻状态量下的控制量;
确定跟随者的期望控制量ve为:
ve=g-1(ξ)(ξ′-f(ξ))
上式中,ve为跟随者的期望控制量,g-1(ξ)为输入耦合函数值的转置;
跟随者与领航者之间的当前时刻的跟随状态误差x为:
x=λ-ξ
跟随者在当前时刻状态量下的控制量v(λ)与期望控制量ve之间的控制量误差u(x)为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州先进技术研究所,未经广州先进技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211501456.7/2.html,转载请声明来源钻瓜专利网。





