[发明专利]基于深度Q网络的RFID多阅读器防碰撞算法在审

申请号：	201810407901.0	申请日：	2018-04-26
公开（公告）号：	CN108563971A	公开（公告）日：	2018-09-21
发明（设计）人：	郑嘉利;袁源	申请（专利权）人：	广西大学
主分类号：	G06K7/10	分类号：	G06K7/10;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	530004 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	阅读器神经网络防碰撞算法防碰撞记忆库权重无线射频识别系统吞吐量标签识别定义状态反向传播算法过程网络算法样本空间资源分配最佳信道最优策略更新网络应用学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度Q网络的RFID多阅读器防碰撞算法，约定阅读器个数为N，系统可用信道资源数为R，学习次数为T，概率ε，折扣系数为γ，权重为θ，其特征在于，该算法步骤还包括：

步骤1)初始化：根据RFID网络中阅读器和信道资源的个数，初始化回放存储replaymemory为D，使用随机权重θ初始化动作-价值函数Q，观察初始状态s；

步骤2)执行动作：产生一个0到1之间的随机数，当这个随机数小于概率ε则选择一个随机动作，若大于概率ε则选择最大Q值对应的动作，执行动作a后，观察奖赏值c和下一状态s′，在回放存储D中保存经验<s，a，c，s′>；

步骤3)训练神经网络：由于状态之间具有连续性，如果对于每一个状态都更新Q值，受状态分布影响，效果会不好；因此，从回放存储D中进行样本随机变换，每次采用随机数据进行梯度下降，并通过反向传播方法更新神经网络权重θ；

步骤4)状态转化：当系统还未达到学习次数T时，令s＝s′，转到步骤2，当达到学习次数T则终止学习过程。

2.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法，其特征在于，所述信道资源用于表示阅读器的可用信道数，所述回放存储(replay memory)D用于存放所有经验值<s，a，c，s′>，当训练网络时，使用的是来自回放存储器的随机数据批次，而不是使用最近的变换。

3.根据权利要求1所述的适用于基于深度Q网络的阅读器防碰撞算法，其特征在于，所述步骤1)状态s由i和A(i)确定，其中i表示当前阅读器，i∈{1，2，...，N}，A(i)表示当前阅读器可用信道资源数，A(i)∈{1，2，...，R}，即当前阅读器i可用的信道资源数A(i)，动作a表示分配一个信道资源给阅读器，同时定义阅读器i的信道状态是R维向量U(i)＝{u₁(i)，u₂(i)，...，u_R(i)}，且

4.根据权利要求1～2任意所述的适用于RFID系统的基于深度Q网络的阅读器防碰撞算法，其特征在于，所述步骤2)中，概率ε随时间变化从1降低到0.1，从而一开始系统采取完全随机的行动以最大化地探索状态空间，然后再稳定在一个固定的探索率上。

5.根据权利要求3所述的适用于RFID系统的基于深度Q网络的阅读器防碰撞算法，其特征在于，所述步骤2)奖励可以表示为：

c(s，a)＝n₁(s，a)c₁+n₂(s，a)c₂+n₃(s，a)c₃+n₄(s，a)c₄，其中n₁(s，a)表示占用信道k且在阅读器i的干扰范围内的阅读器数量，n₂(s，a)表示不占用信道k但在阅读器i的干扰范围内的阅读器数量，n₃(s，a)表示占用信道k但不在阅读器i的干扰范围内的阅读器数量，n₄(s，a)表示不占用信道k且不在阅读器i的干扰范围内的阅读器数量，系数c₁，c₂，c₃，c₄通常满足c₁＞c₂＞c₃＞c₄，c(s，a)越小，系统碰撞率越小，符合深度Q网络学习规则。