[发明专利]一种基于深度强化学习的无人机数据收集方法有效
申请号: | 201911410181.4 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113133105B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 童鹏;刘娟;冯宇;王亮 | 申请(专利权)人: | 丽水青达科技合伙企业(有限合伙) |
主分类号: | H04W52/28 | 分类号: | H04W52/28;H04W52/34;H04W52/46;H04W84/18;G06N3/04;G06N3/08 |
代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 彭随丽 |
地址: | 323000 浙江省丽水市莲都区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人机 数据 收集 方法 | ||
1.一种基于深度强化学习的无人机数据收集方法,基于无线传感网络、一个基站、K个传感节点和一架无人机,其特征在于,包括:
初始化:将所述无线传感网络中目标区域虚拟分割成P个相同大小的小区域,无人机获取所述P个小区域中的中心点位置坐标Ω1=[Xi,Yi,0](i=1,2,…,P),K个传感节点坐标qk=[xk,yk,0](k=1,2,…,K);每个所述传感节点上设有数据缓存区用于存储数据和缓存队列信息;无人机以时隙作为时间节点;设定每个时隙持续时间长度为Tss,Ts进一步分成节点采样时段长度T1,节点上传数据包到无人机的传输时段长度T2,无人机转发数据包至基站时段长度T3;设定无人机最长飞行时间对应的时隙数Ne、无人机返程时所需的剩余能量阈值Eth、累计总时隙数num=0、随机动作选择概率ε、无人机飞行动作空间φ,无人机所携带的剩余能量E(n)为满电量E,获取无人机当前位置qu(n)=[x(n),y(n),h];
步骤1:判断所述剩余能量E(n)是否大于所述剩余能量阈值Eth,若E(n)大于Eth,进入步骤2;若E(n)小于Eth,则无人机返回基站,初始化时隙数n=0、节点数据信息年龄Ak(n)、缓存区数据分组生存时间Uk(n),补充无人机所携带的剩余能量E(n)为满电量E,获取无人机当前位置qu(n),执行步骤1;
步骤2:无人机获取当前时隙n,获取每个节点的数据信息年龄Ak(n)、缓存区数据分组生存时间Uk(n)(k=1,2,…,K)、无人机当前位置qu(n)=[x(n),y(n),h]和无人机所携带的剩余能量E(n),将其组成系统时隙状态s作为学习样本数据输入动作决策算法中;
步骤3:动作决策算法生成一个在[0,1]之间均匀分布的随机数τ,判断τ是否小于ε;若τ小于ε,则动作决策算法从动作空间中随机选择一个动作a;若τ大于ε,则动作决策算法依据所述系统时隙状态s,生成所有动作a(a∈φ)对应的函数值Q(s,a;θ),所述Q(s,a;θ)公式构成为:Q(s,a;θ)=g(L)(w(L)Ts(L-1)+b(L)),其中,代表估计神经网络的层数,s(l-1)(l=1,…,L)代表估计神经网络的第l层输入,s(0)=s是所述系统时隙状态,g(l)(·)代表估计神经网络的第l层激活函数,w(l)和b(l)分别代表估计神经网络的第l层矢量权重和偏置参数,wT代表矢量w的转置,参数θ代表L层估计神经网络的参数w(l)和b(l)(l=1,…,L),判断所述Q(s,a;θ)最小值所对应的动作,即:
步骤4:根据无人机当前位置qu(n)和所选所述动作a计算目标中心点位置坐标qu(n+1);
步骤5:无人机沿直线以速度v飞行至所述目标中心点位置坐标,同时进行数据采集;更新时隙n=n+1,num=num+1,判断num是否小于所述无人机最长飞行时间对应的时隙数Ne,若是,则返回步骤1;若否,则停止数据收集,输出数据平均信息年龄和丢包率pdrop。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丽水青达科技合伙企业(有限合伙),未经丽水青达科技合伙企业(有限合伙)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911410181.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种远红外功能沐浴过滤器
- 下一篇:用于控制可变物理参数的控制装置及方法