[发明专利]基于改进Q学习算法的物联网错误传感器节点定位方法有效
申请号: | 201210325619.0 | 申请日: | 2012-09-05 |
公开(公告)号: | CN102868972A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 范新南;卞辉;史鹏飞;张继 | 申请(专利权)人: | 河海大学常州校区 |
主分类号: | H04W4/06 | 分类号: | H04W4/06;H04W40/02;H04W64/00;H04W84/18 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 学习 算法 联网 错误 传感器 节点 定位 方法 | ||
技术领域
本发明属于物联网公共安全领域,具体涉及一种改进的强化学习算法应用到无线传感网络的错误节点定位。
背景技术
物联网(The Internet of Things)是一种虚拟网络与现实世界实时交互的新型系统,其无处不在的数据感知,以无线为主的信息传输,智能化的信息处理,虽然有利于提高社会效率,但也引起大众对信息安全和隐私保护问题的关注。其中,无线传感器网络(Wireless Sensor Network,WSN)是物联网重要的组成部分,传感器节点暴露在公开场合中,与有线网络相比,依赖于无线的传感器网络更容易受到各种安全威胁,例如节点受害,路由毁坏,错误信息注入以及周期性的发送攻击脉冲等。
随着物联网的发展,传感器定位技术已开始得到广泛的应用与发展,典型的WSN定位技术有接收信号强度指示(Received Signal Strength Indicator,RSSI)、基于到达时间(Time of Arrival,TOA)、基于到达时间差(Time Difference on Arrival,TDOA)和基于到达角度(A angle of Arrival,AOA)等方法.然而基于RSSI的定位结果常不稳定,故应用性受到一定限制.为了解决这一问题,研究者们已提出了众多改进策略和算法.近年来,借助机器学习对定位机制进行建模和算法设计已成为一个研究热点之一.该类方法的实质是将传感器定位过程视为一个机器学习问题,通过深入挖掘可用传感数据所隐含的信息(如网络拓扑结构、数据的非线性关系等),学习并建立一个从信号空间到物理空间的映射,而后运用该映射估计出未知节点的位置坐标,从而实现定位.然而,尽管已经发展出众多定位算法和模型,但多是针对源节点和具有已知特征的目标节点的定位,针对未知特征的错误传感器节点的定位研究还较为罕见,尤其在国内,几乎是空白。
Q学习是一种与模型无关的强化学习算法,其迭代时采用状态-动作对的奖赏和Q(s,a)作为估计函数,通过试错(trial and error)来与环境进行交互,当Agent的某个动作导致环境正的奖赏时,则Agent以后执行该动作的趋势便会加强;反之Agent产生这个动作的趋势减弱。相对传统的Q学习,一维的状态-动作对只解决了无线传感网络的路由问题,奖赏函数较为单一且固定不变,对错误节点无法进行准确定位,需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,鲁棒性较低。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于改进Q学习算法的物联网错误传感器节点定位方法,通过改进Q学习算法方法计算出网络的拓扑结构,综合考量传感器节点的能量信息,路由选择,与目标节点距离等因素,对错误节点进行准确定位,不需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,也具有较高的鲁棒性。
为了实现上述目的,本发明是通过如下的技术方案来实现:
基于改进Q学习算法的物联网错误传感器节点定位方法,其步骤包括如下:
1.将物联网的传感器节点抽象成具有一定属性信息的Agent节点,包括源节点和汇聚节点(sink节点)。各个传感器节点组成系统的感知模块,在控制信息里记录该传感器节点的剩余能量,下一跳的路由选择,与sink节点的距离等属性信息。考虑到这些网络状态的特征信息可以人为定义,那么可以把其定义为一个数值,这样反馈信息传送需要的能量和传输产生的时延可以忽略不计。Sink节点和源节点通过网关网桥连接进入以太网,与后台服务器进行数据传输与计算,服务器具有较好的计算能力。因为在每个周期中对控制信息的Q值计算过程都是通过后台服务器来完成,对传感器节点的能量消耗几乎不产生影响。
2.将Q学习与Agent概念相结合,在离散时间、有限状态、有限动作集合的环境下,使Agent所获得的累积折扣回报最大化。相对于传统的稀疏型奖惩函数,本系统采用密集型的启发式奖赏函数,将目标任务分成不同的子任务(例如能耗最少,路径最优,跳数最少),不同的子任务达到目标时有不同的奖赏值,对各个子任务的奖赏值加权求和,定义强化学习下状态改变的奖惩函数R′。要使得算法中的Q值收敛,定义的奖惩函数必须是有界函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210325619.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种号码关联的实现方法及系统
- 下一篇:防爆摄像仪