[发明专利]一种基于深度强化学习的水下无线传感器网络拓扑控制方法有效

申请号：	202111121811.3	申请日：	2021-09-24
公开（公告）号：	CN113923123B	公开（公告）日：	2023-06-09
发明（设计）人：	刘春凤;赵昭;曲雯毓;余涛;王子恒	申请（专利权）人：	天津大学
主分类号：	H04L41/12	分类号：	H04L41/12;H04W40/24;G06N3/092;G06N3/088;G06N3/084;G06N3/0464;H04W4/38;H04W28/08
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	韩帅
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习水下无线传感器网络拓扑控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的水下无线传感器网络拓扑控制方法，包括如下步骤：

S1.离线训练阶段

步骤101：拓扑控制中心获取已经完成部署的水面汇聚节点和水下传感器节点的坐标信息，并根据这些坐标信息生成拓扑控制预定顺序；

步骤102：拓扑控制中心为初始网络拓扑中的每条链路随机生成传输成功概率，同时为每个水下传感器节点随机生成剩余能量值；

步骤103：拓扑控制中心根据强化学习框架按照拓扑控制预定顺序依次为水下传感器节点选择它的数据传输的下一跳节点，并将该选择作为当前状态的卷积神经网络的训练数据；其中：所述步骤103中拓扑控制中心为水下传感器节点选择数据传输的下一跳节点过程；

步骤301：按照拓扑控制预定顺序，某水下传感器节点n_i为当前状态s_t对应的水下传感器节点，拓扑控制中心利用基于深度学习的蒙特卡洛树搜索方法去计算当前状态s_t的每个动作a_t的收益其中：

所述步骤301中基于深度学习的蒙特卡洛树搜索方法包含四个步骤：选择、扩展、模拟和方向传播：

1)选择过程：以水下传感器节点n_i对应当前状态s_t作为搜索树的根节点，当前状态s_t的最优动作由公式1计算所得；当前状态s_t执行最优动作后，转移到由最优动作决定的下一个状态s_t+1，这个状态s_t+1将执行动作选择；重复上述步骤直到到达一个之前没有出现过的状态，它被称为叶子状态；

其中公式1表示如下：

式中a_t是当前状态s_t的一个动作；A_t是当前状态s_t的动作集；C是一个预先设定的调节系数，且C0；M(s_t)是相同最优动作下状态s_t对应的水下传感器节点被到达的次数；M(s_t,a_t)是当前状态s_t选择动作a_t的次数；Q^π(s_t,a_t)是当前状态s_t选择动作a_t期望收益，它由公式2计算获得；p(s_t,a_t)是当前状态s_t选择动作a_t的估计概率，它通过向卷积神经网络输入当前状态s_t和动作a_t获得；

其中公式2表示如下：

式中M(s_t,a_t)是当前状态s_t选择动作a_t的次数；Q^π'(s_t,a_t)是第M(s_t,a_t)-1次时的当前状态s_t选择动作a_t的期望收益；V_t+1(a_t)表示执行动作a_t到达状态s_t+1后状态s_t+1获得的期望收益，它通过向卷积神经网络输入当前状态s_t和动作a_t获得；

2)扩展过程：当达到一个叶子状态时，扩展该叶子状态，直到MCTS搜索次数达到设定的阈值；

3)模拟过程：使用公式1来计算在扩展阶段被扩展的叶子状态的最优动作；当到达最终状态s_hn所对应的水下传感器节点时，状态s_hn的期望收益为V_hn由公式3获得；当s_hn执行完动作后，网络拓扑完成生成；

其中:最终状态s_hn是拓扑控制中心按照拓扑控制预定顺序遍历h次网络中n个水下传感器节点:

其中：公式3表示如下：

式中式中a_hn是当前状态s_hn的一个动作；A_hn是当前状态s_hn的动作集；T_π表示通过将已生成的网络拓扑以及对应的网络信道和传输信息输入到已有的网络模拟器中去计算获得的该网络拓扑对应的网络生命周期；

4)反向传播过程：将公式3的模拟奖励回传给根节点，并更新所经过的所有状态上的信息；

步骤302：拓扑控制中心选择当前状态s_t的所有动作中具有最大收益的动作去作为当前状态下采取的最佳动作；

步骤303：当前状态s_t转移到下一个状态s_t+1，直到所有状态被遍历；

步骤104：卷积神经网络的训练数据集合存储到训练元组；

步骤105：从训练元组中以随机抽样的方式选择一组训练数据集合去作为训练卷积神经网络的输入，经过这次训练完的卷积神经网络将被更新；在下一次的拓扑控制过程中，拓扑控制中心利用更新完卷积神经网络的基于深度学习的蒙特卡洛树搜索方法去计算动作收益；

步骤106：判断拓扑控制中心是否达到预先设定的自学习次数，若是进入在线控制阶段；否则返回步骤102；

S2、在线控制阶段

步骤201：水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心；

步骤202：当拓扑控制中心接收到所有水下传感器节点的信息包后，拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑；

步骤203：当拓扑控制中心生成网络拓扑后，它以能够覆盖所有水下传感器节点的发射功率发送网络拓扑信息包；水下传感器节点收到网络拓扑信息包后，根据网络拓扑信息包，重新选择邻居节点进行连接，达到根据水下通信环境去进行网络拓扑控制的目的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111121811.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种玻封二极管自动上锡设备
下一篇：一种碎石振冲桩施工过程智能监控方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的水下无线传感器网络拓扑控制方法有效

专利文献下载