[发明专利]一种基于深度强化学习的水下无线传感器网络拓扑控制方法有效
| 申请号: | 202111121811.3 | 申请日: | 2021-09-24 |
| 公开(公告)号: | CN113923123B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 刘春凤;赵昭;曲雯毓;余涛;王子恒 | 申请(专利权)人: | 天津大学 |
| 主分类号: | H04L41/12 | 分类号: | H04L41/12;H04W40/24;G06N3/092;G06N3/088;G06N3/084;G06N3/0464;H04W4/38;H04W28/08 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 水下 无线 传感器 网络 拓扑 控制 方法 | ||
1.一种基于深度强化学习的水下无线传感器网络拓扑控制方法,包括如下步骤:
S1.离线训练阶段
步骤101:拓扑控制中心获取已经完成部署的水面汇聚节点和水下传感器节点的坐标信息,并根据这些坐标信息生成拓扑控制预定顺序;
步骤102:拓扑控制中心为初始网络拓扑中的每条链路随机生成传输成功概率,同时为每个水下传感器节点随机生成剩余能量值;
步骤103:拓扑控制中心根据强化学习框架按照拓扑控制预定顺序依次为水下传感器节点选择它的数据传输的下一跳节点,并将该选择作为当前状态的卷积神经网络的训练数据;其中:所述步骤103中拓扑控制中心为水下传感器节点选择数据传输的下一跳节点过程;
步骤301:按照拓扑控制预定顺序,某水下传感器节点ni为当前状态st对应的水下传感器节点,拓扑控制中心利用基于深度学习的蒙特卡洛树搜索方法去计算当前状态st的每个动作at的收益其中:
所述步骤301中基于深度学习的蒙特卡洛树搜索方法包含四个步骤:选择、扩展、模拟和方向传播:
1)选择过程:以水下传感器节点ni对应当前状态st作为搜索树的根节点,当前状态st的最优动作由公式1计算所得;当前状态st执行最优动作后,转移到由最优动作决定的下一个状态st+1,这个状态st+1将执行动作选择;重复上述步骤直到到达一个之前没有出现过的状态,它被称为叶子状态;
其中公式1表示如下:
式中at是当前状态st的一个动作;At是当前状态st的动作集;C是一个预先设定的调节系数,且C0;M(st)是相同最优动作下状态st对应的水下传感器节点被到达的次数;M(st,at)是当前状态st选择动作at的次数;Qπ(st,at)是当前状态st选择动作at期望收益,它由公式2计算获得;p(st,at)是当前状态st选择动作at的估计概率,它通过向卷积神经网络输入当前状态st和动作at获得;
其中公式2表示如下:
式中M(st,at)是当前状态st选择动作at的次数;Qπ'(st,at)是第M(st,at)-1次时的当前状态st选择动作at的期望收益;Vt+1(at)表示执行动作at到达状态st+1后状态st+1获得的期望收益,它通过向卷积神经网络输入当前状态st和动作at获得;
2)扩展过程:当达到一个叶子状态时,扩展该叶子状态,直到MCTS搜索次数达到设定的阈值;
3)模拟过程:使用公式1来计算在扩展阶段被扩展的叶子状态的最优动作;当到达最终状态shn所对应的水下传感器节点时,状态shn的期望收益为Vhn由公式3获得;当shn执行完动作后,网络拓扑完成生成;
其中:最终状态shn是拓扑控制中心按照拓扑控制预定顺序遍历h次网络中n个水下传感器节点:
其中:公式3表示如下:
式中式中ahn是当前状态shn的一个动作;Ahn是当前状态shn的动作集;Tπ表示通过将已生成的网络拓扑以及对应的网络信道和传输信息输入到已有的网络模拟器中去计算获得的该网络拓扑对应的网络生命周期;
4)反向传播过程:将公式3的模拟奖励回传给根节点,并更新所经过的所有状态上的信息;
步骤302:拓扑控制中心选择当前状态st的所有动作中具有最大收益的动作去作为当前状态下采取的最佳动作;
步骤303:当前状态st转移到下一个状态st+1,直到所有状态被遍历;
步骤104:卷积神经网络的训练数据集合存储到训练元组;
步骤105:从训练元组中以随机抽样的方式选择一组训练数据集合去作为训练卷积神经网络的输入,经过这次训练完的卷积神经网络将被更新;在下一次的拓扑控制过程中,拓扑控制中心利用更新完卷积神经网络的基于深度学习的蒙特卡洛树搜索方法去计算动作收益;
步骤106:判断拓扑控制中心是否达到预先设定的自学习次数,若是进入在线控制阶段;否则返回步骤102;
S2、在线控制阶段
步骤201:水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心;
步骤202:当拓扑控制中心接收到所有水下传感器节点的信息包后,拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑;
步骤203:当拓扑控制中心生成网络拓扑后,它以能够覆盖所有水下传感器节点的发射功率发送网络拓扑信息包;水下传感器节点收到网络拓扑信息包后,根据网络拓扑信息包,重新选择邻居节点进行连接,达到根据水下通信环境去进行网络拓扑控制的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111121811.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种玻封二极管自动上锡设备
- 下一篇:一种碎石振冲桩施工过程智能监控方法





