[发明专利]一种基于深度强化学习的机具三维定位方法在审

申请号：	202111347415.2	申请日：	2021-11-15
公开（公告）号：	CN114219849A	公开（公告）日：	2022-03-22
发明（设计）人：	朱瑞凯;卢自强;孙凯;李德生;詹涛;焦仙宏;申洲;要粮安;王春;杨爱晟;杜娟;付兴旺;谢强;宋宏图;张珂	申请（专利权）人：	国网山西省电力公司晋中供电公司;华北电力大学（保定）
主分类号：	G06T7/70	分类号：	G06T7/70;G06T7/80;G06T17/00
代理公司：	北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624	代理人：	郭智
地址：	030600 山***	国省代码：	山西;14
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习机具三维定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度强化学习的机具三维定位方法，其特征在于，包括如下步骤：

步骤A，根据三维定位几何模型计算出移动台位置特征信息；

步骤B，根据已得到的位置特征信息构建马尔科夫过程；

步骤C，根据深度强化学习框架计算出损失函数值和相应的Q函数；

步骤D，根据马尔科夫过程及损失函数和Q函数训练出基于三维定位的深度Q网络。

2.如权利要求1所述的基于深度强化学习的三维定位算法，其特征在于，步骤A具体包括：

A1，根据三维定位的几何模型，假设基站的三维坐标可表示为P_B＝(x_B,y_B,z_B)^T，障碍物的三维坐标为P_S,n＝(x_S,n,y_S,n,z_S,n)^T，移动台的三维坐标科表示为P_M＝(x_M,y_M,z_M)^T，其中x,y,z为三维空间坐标，基站到目标的传播路径长度由d_n表示，它由两部分组成，即基站到障碍物的路径长度为r_n和从障碍物到移动台的路径长度为(d_n-r_n)。

3.如权利要求1所述的基于深度强化学习的三维定位算法，其特征在于，步骤B具体包括：

B1，根据已有的三维无线定位位置信息，MDP中的状态空间s_t由目标位置特征(到达角)AOA、(离开角)AOD、(到达时间)TOA组成，TOA可由传播路径长度测量得出，传播路径的长度由d_n表示，而第n个非视距(NLOS)传播路径的AOD表示为第n个NLOS传播路径的AOA表示为其中当时，

B2，MDP的动作空间a_t则由目标根据状态s_t做出采取行动的动作组成，包括保持在同一个网格上，向北、南、西、东、西北、东北、西南、东南方向移动一个网格；

B3，MDP的奖励函数设置为

其中τ系统偏离参数，且b＝(b₁,b₂,...,b_2N-1,b_2N)^T，n＝1,...,N表示非视距路径数量。

4.如权利要求1所述的基于深度强化学习的三维定位算法，其特征在于，步骤C具体包括：

C1，利用已设计好的状态、动作和奖励用于DQN的训练，而DQN的核心是Q函数：其中φ(s_t)是DQN的状态重判，a_t表示在时间步t上采取的动作，是训练时的系统参数；

C2，对于采样小批量中的每个经验元组，目标网络用于计算的损失函数为其中符号E[·]表示期望值的计算，y_j是目标值，表示为γ∈[0,1]是折扣因子。

5.如权利要求1所述的基于深度强化学习的三维定位算法，其特征在于，步骤D具体包括：

D1，初始化Q网络参数值，从输入到输出决策的每次映射期间，Q网络生成一个结果，该结果由当前状态φ(s_j)、当前动作a_j、即时奖励r_j+1和下一状态φ(s_j+1)组成。然后将这样的结果存储到重放存储器D中；

D2，在初始化步骤中创建的具有重放内存容量的重放存储器D。之后，新生成的经验元组(φ(s_t),a_t,r_t+1,φ(s_t))被堆叠到D中。当存储的经验元组的长度达到一定数量时，开始训练Q网络；

D3，对于训练中的每个时间步t,从D中采样小批量数据更新目标值y_j，然后利用y_j更新损失函数，一旦计算出损失值，就应用随机梯度下降方法来训练Q网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网山西省电力公司晋中供电公司;华北电力大学（保定），未经国网山西省电力公司晋中供电公司;华北电力大学（保定）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111347415.2/1.html，转载请声明来源钻瓜专利网。

上一篇：可用于控制昆虫害虫的修饰的Cry1Ca毒素
下一篇：一种用于重组蛋白的高糖基化修饰序列及其重组猪促卵泡激素和应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的机具三维定位方法在审

专利文献下载