[发明专利]一种基于DDPG的RFID室内定位算法有效

申请号：	201811085404.X	申请日：	2018-09-18
公开（公告）号：	CN109212476B	公开（公告）日：	2023-03-14
发明（设计）人：	郑嘉利;李丽	申请（专利权）人：	广西大学
主分类号：	G01S5/08	分类号：	G01S5/08;H04W64/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	530004 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ddpg rfid 室内定位算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DDPG的RFID室内定位算法，其特征在于，包括以下步骤：

步骤1)对区域内的M个RFID样本标签的RSSI值进行采集，获得原始训练数据；

步骤2)初始化噪声，利用动作网络的Q估计网络学习，在每个动作中加入噪声，更新状态并获得RFID样本标签最优的RSSI值，将学习到的经验和数据存入记忆库中；

步骤3)训练神经网络：建立动作网络Q(s，a|θ^Q)和评价网络μ(s|θ^μ)，再分别建立这两个网络的目标网络：Q′←Q，μ′←μ，目标网络获得下一个状态动作函数，根据评价损失函数更新评价网络，同时根据策略梯度更新动作网络，最后再更新动作网络和评价网络的权重目标网络，使其跟踪学习网络，输出RFID样本标签对应的具体位置，最终得到DDPG定位模型；

步骤4)精准定位：当携带有RFID标签的待定位目标进入检测区域，读写器获取标签信息及RSSI信号强度值，然后将这些数据传至计算机并输入到训练好的DDPG定位模型中，模型准确识别数据并输出待定位目标的具体位置。

2.根据权利要求1所述的一种基于DDPG的RFID室内定位算法，其特征在于，所述步骤2)中初始化噪声，具体包括：初始化噪声分布N，每个动作策略添加一个噪声，执行当前动作a_t并观察当前回报值r_t，然后观察得到下一个状态s_t+1，在记忆库R中保存经验(s_t，a_t，r_t，s_t+1)，并获得当前RFID标签的最优RSSI值。

3.根据权利要求1所述的一种基于DDPG的RFID室内定位算法，其特征在于，所述步骤2)中，采用记忆回放的方法，先建立一个记忆库，将部分采样样本收集起来，每次优化是从记忆库中随机取出一部分进行优化，进行小批量的学习，这样可以在不同类型单元的不同任务之间有效学习，减少部分动作不稳定性问题。

4.根据权利要求1所述的一种基于DDPG的RFID室内定位算法，其特征在于，所述步骤2)中的学习过程是一个不断递归的过程，符合贝尔曼方程。

5.根据权利要求1所述的一种基于DDPG的RFID室内定位算法，其特征在于，所述步骤3)中训练神经网络，具体包括：

a)取记忆并训练：从记忆库中取出部分随机样本，表示为(s_i，a_i，r_i，s_i+1)，然后训练更新目标网络，学习过程可表示为

y_i＝r_i+γQ′(s_i+1，u′(s_i+1|θ^u′)|θ^Q′)

其中y_i代表目标网络，r_i代表在i学习过程中的回报值，θ^u′、θ^Q′代表目标权重，γ代表折扣因子；

b)根据最小损失函数更新评价网络：

其中L代表损失函数；

c)根据策略梯度更新动作网络：

其中代表梯度，用动作网络的方法调整权重值；

d)更新目标网络，即权重更新：

评价网络权重更新：θ^Q′←τθ^Q+(1-τ)θ^Q′；