[发明专利]一种基于分层深度强化学习的无人机采集路径规划方法在审
申请号: | 202110458366.3 | 申请日: | 2021-04-27 |
公开(公告)号: | CN113190039A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 覃振权;刘中豪;卢炳先;王雷;朱明;王治国 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 深度 强化 学习 无人机 采集 路径 规划 方法 | ||
1.一种基于分层深度强化学习的无人机采集路径规划方法,其特征在于,步骤如下:
(1)根据实际需求对无人机数据采集场景进行建模
(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景本文,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{al,ar,au,ad,ac,ae},al,ar,au,ad分别表示移动到左邻、右邻、上邻、下邻子区域的中心;ac表示对当前所处子区域内的传感设备进行数据采集,ae表示无人机在控制中心执行充电动作;
(1.2)建立通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站和传感设备之间的路径损耗模型为:
其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,d表示无人机和传感设备之间的欧式距离,规定无人机始终飞行在固定的高度h;根据路径损失,信道增益表示为根据信道增益,无人机基站和传感设备之间在时隙t的数据传输速率为:
其中,pt表示地面设备的发射功率,σ2表示加性高斯白噪声功率;
(1.3)无人机能耗模型:在无人机辅助通信中,无人机的能耗主要分为两个部分:通信能耗和推进能耗;在实际应用中,通信能耗相对于推进能耗是很小的,因此忽略通信能耗,只研究通信能耗;无人机的推进能耗包括叶片轮廓能耗、推进能耗和克服重力所造成的能耗:
其中,P0和P1分别表示无人机在悬停状态下的叶片轮廓能耗和Derived能耗;Vt表示无人机在时隙t的飞行速度,Utip表示旋翼无人机叶片旋转的端速,v0表示悬停状态下的平均旋翼诱导速度,d0表示机身阻力比,ρ表示空气密度,s0表示转子稳定性,Ar表示旋翼的面积;当无人机处于悬停状态即Vt=0时,无人机的能耗为Eu(0)=P0+P1;规定无人机以匀速飞行,当无人机执行移动动作时,无人机在该时隙的能耗为Eu(vu)×δ,其中当无人机悬停执行数据采集任务时,无人机在该时隙的能耗为Eu(0)×δ;
(1.4)数据新鲜度建模:使用信息年龄AoI作为衡量数据新鲜度的指标;AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来,所经历的时间,因此在第t个时隙,第n个设备的AoI表示为:
Δn(t)=t-Un(t)
其中,Un(t)表示在时隙t目前无人机所拥有的第n个设备的最新传感数据的生成时间;但是AoI只是衡量数据新鲜度的一种通用指标,不同的应用对数据新鲜度的敏感性不同,只使用AoI不能很好地刻画应用的服务质量;因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化;awΔ函数需要具备non-increasing特性,其中0a1是一个常数,w表示权重;因此在每个时刻,整个系统的基于数据新鲜度的平均QoS表示为:
其中,un(Δ)表示第n个设备的基于AoI的utility函数,Δ表示数据新鲜度,是该函数的自变量;其中a是一个介于0和1之间的常数,设a=0.8;wn表示第n个设备的时间敏感权重;
(2)将问题建模为马尔科夫决策过程
在该系统中,无人机相当于一个智能体;在每一个时隙中,无人机根据当前系统状态S(t)和决策函数,从动作集A中选择动作a(t),以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,r(t)表示智能体在t时刻获得的瞬时奖励;
系统状态集合S(t)={o(t),e(t),Δ(t)},分别包含无人机当前的位置状态o(t)={x(t),y(t)}为无人机的位置坐标,e(t)表示无人机当前剩余能量,Δ(t)={Δ1(t),…,ΔN(t)}表示当前所有地面传感设备的AoI;
无人机动作空间A={al,ar,au,ad,ac,ae};
系统瞬时奖励r(t):本方法的目标是在考虑无人机能耗的同时,最大化该系统基于AoI的服务质量,因此将瞬时奖励设计为:
其中,Q(t)表示当前时刻基于AoI的QoS,为数据信息度所带来的奖励;第二项表示剩余能量所带来的的奖励,βe表示能量奖励权重,EIni表示无人机的初始能量;
(3)基于分层深度强化学习算法进行训练
本方法提出一种基于分层深度强化学习的无人机路径规划算法,该分层深度强化学习算法主要包括两层策略,高层策略负责选择目标,包括G={g0,g1,…,gn,…,gN},其中g0表示以控制中心为目标,执行充电动作,高层策略的Q网络用Q1(·|θ1)表示,θ1表示网络参数;TargetQ网络用Q′1(·|θ′1)表示,参数用θ′1表示,高层策略训练时所使用的经验回放池表示为gn(1nN)表示以第n个传感设备为目标,执行数据采集动作;低层策略负责设计无人机从当前位置到达目标位置所在子区域的路径,底层策略的动作空间Al={al,ar,au,ad},当到达目标子区域后,再执行充电动作或数据采集动作,高层策略的奖励rh被定义为在低层策略完成某个高层策略期间内的平均QoS;低层策略的Q网络用Q2(·|θ2)表示,参数表示为θ2;TargetQ网络用Q′2(·|θ′2)表示,参数用θ′2表示,低层策略训练时所使用的经验回放池表示为低层策略的奖励rl的定义是:当无人机达到目标区域是,rl=1;否则,rl=0;
(3.1)分别初始化高层策略和低层策略的经验回放空间网络参数{θ1,θ′1,θ2,θ′2};初始化高层策略的探索概率ε1=1和低层策略的探索ε2=1;
(3.2)对于训练回合episode=1;
(3.3)时隙t=1,初始化系统状态;
(3.4)获取当前时刻的系统状态s,高层策略基于ε1概率的贪婪策略选择一个目标g:以ε1的概率从目标空间G中随机选择一个目标,以1-ε1的概率根据高层策略网络选择一个目标g=arg maxg Q1(s,g|θ1);设置rh_sum=0,cnt=0;cnt用来记载完成该目标所经历的时隙数量,rh_sum用来记录完成该目标期间的总QoS;
(3.5)获取当前系统状态s,将当前系统状态和高层策略的目标{s,g}输入到低层策略,低层策略基于ε1概率的贪婪策略从低层策略动作空间Al中选择一个动作a;执行该动作,并产生新的系统状态s′,并获得低层策略奖励rl和外部奖励r(t);将元组{s,g},a,rl,{s′,g}存入经验回放池rh_sum=rh_sum+r(t),cnt=cnt+1,t=t+1;
(3.6)从经验回放池中随机采样固定数量K的样本,更新低层策略网络参数θ2;对于这些样本{sk,gk},ak,rl,k,{s′k,gk},k∈{1,…,K},计算低层策略的目标值:
γ表示折扣系数;使用梯度下降法最小化损失函数L(θ2),更新低层策略网络的参数θ2:
(3.7)如果未到达目标g规定的区域,继续返回(3.5)执行低层策略;反之,无人机执行该区域的数据采集动作ac表示无人机在控制中心执行充电动作或充电动作ae表示无人机在控制中心执行充电动作,t=t+1,将元组s,g,rh,s′存入经验回放池中;从经验回放池中随机采样固定数量K的样本,更新底层策略网络参数θ1;对于这些样本sk,gk,rh,k,s′k,k∈{1,…,K},计算目标值:
使用梯度下降法最小化损失函数L(θ1),更新低层策略网络的参数θ1:
(3.8)如果tT,返回(3.4)继续执行高层策略;如果t≥T时,退出当前训练回合,episode=episode+1;
(3.9)如果训练回合数episode到达规定的次数P,训练过程完成;反之,返回(3.3),重新开始一个新的训练回合;
(4)将训练好的策略网络模型分配给无人机,将无人机部署到目标区域中执行数据采集任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110458366.3/1.html,转载请声明来源钻瓜专利网。