[发明专利]一种基于深度强化学习的机具三维定位方法在审
申请号: | 202111347415.2 | 申请日: | 2021-11-15 |
公开(公告)号: | CN114219849A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 朱瑞凯;卢自强;孙凯;李德生;詹涛;焦仙宏;申洲;要粮安;王春;杨爱晟;杜娟;付兴旺;谢强;宋宏图;张珂 | 申请(专利权)人: | 国网山西省电力公司晋中供电公司;华北电力大学(保定) |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06T7/80;G06T17/00 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 郭智 |
地址: | 030600 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 机具 三维 定位 方法 | ||
1.基于深度强化学习的机具三维定位方法,其特征在于,包括如下步骤:
步骤A,根据三维定位几何模型计算出移动台位置特征信息;
步骤B,根据已得到的位置特征信息构建马尔科夫过程;
步骤C,根据深度强化学习框架计算出损失函数值和相应的Q函数;
步骤D,根据马尔科夫过程及损失函数和Q函数训练出基于三维定位的深度Q网络。
2.如权利要求1所述的基于深度强化学习的三维定位算法,其特征在于,步骤A具体包括:
A1,根据三维定位的几何模型,假设基站的三维坐标可表示为PB=(xB,yB,zB)T,障碍物的三维坐标为PS,n=(xS,n,yS,n,zS,n)T,移动台的三维坐标科表示为PM=(xM,yM,zM)T,其中x,y,z为三维空间坐标,基站到目标的传播路径长度由dn表示,它由两部分组成,即基站到障碍物的路径长度为rn和从障碍物到移动台的路径长度为(dn-rn)。
3.如权利要求1所述的基于深度强化学习的三维定位算法,其特征在于,步骤B具体包括:
B1,根据已有的三维无线定位位置信息,MDP中的状态空间st由目标位置特征(到达角)AOA、(离开角)AOD、(到达时间)TOA组成,TOA可由传播路径长度测量得出,传播路径的长度由dn表示,而第n个非视距(NLOS)传播路径的AOD表示为第n个NLOS传播路径的AOA表示为其中当时,
B2,MDP的动作空间at则由目标根据状态st做出采取行动的动作组成,包括保持在同一个网格上,向北、南、西、东、西北、东北、西南、东南方向移动一个网格;
B3,MDP的奖励函数设置为
其中τ系统偏离参数,且b=(b1,b2,...,b2N-1,b2N)T,n=1,...,N表示非视距路径数量。
4.如权利要求1所述的基于深度强化学习的三维定位算法,其特征在于,步骤C具体包括:
C1,利用已设计好的状态、动作和奖励用于DQN的训练,而DQN的核心是Q函数:其中φ(st)是DQN的状态重判,at表示在时间步t上采取的动作,是训练时的系统参数;
C2,对于采样小批量中的每个经验元组,目标网络用于计算的损失函数为其中符号E[·]表示期望值的计算,yj是目标值,表示为γ∈[0,1]是折扣因子。
5.如权利要求1所述的基于深度强化学习的三维定位算法,其特征在于,步骤D具体包括:
D1,初始化Q网络参数值,从输入到输出决策的每次映射期间,Q网络生成一个结果,该结果由当前状态φ(sj)、当前动作aj、即时奖励rj+1和下一状态φ(sj+1)组成。然后将这样的结果存储到重放存储器D中;
D2,在初始化步骤中创建的具有重放内存容量的重放存储器D。之后,新生成的经验元组(φ(st),at,rt+1,φ(st))被堆叠到D中。当存储的经验元组的长度达到一定数量时,开始训练Q网络;
D3,对于训练中的每个时间步t,从D中采样小批量数据更新目标值yj,然后利用yj更新损失函数,一旦计算出损失值,就应用随机梯度下降方法来训练Q网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山西省电力公司晋中供电公司;华北电力大学(保定),未经国网山西省电力公司晋中供电公司;华北电力大学(保定)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111347415.2/1.html,转载请声明来源钻瓜专利网。