[发明专利]一种D2D系统中基于深度强化学习的功率分配方法有效

申请号：	202110475005.X	申请日：	2021-04-29
公开（公告）号：	CN113115355B	公开（公告）日：	2022-04-22
发明（设计）人：	梁应敞;史佳琦	申请（专利权）人：	电子科技大学
主分类号：	H04W24/06	分类号：	H04W24/06;H04W72/04;G06N3/04;G06N3/08
代理公司：	成都点睛专利代理事务所(普通合伙) 51232	代理人：	孙一峰
地址：	611731 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 d2d 系统基于深度强化学习功率分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于无线通信技术领域，具体的说是涉及一种D2D系统中基于深度强化学习的功率分配方法。本发明的方案中为每个链路对都单独构建一个深度神经网络，不需要实时得到所有链路的信道信息，而是根据部分历史信息和其他链路地决策信息来预测当前链路周围的通信环境，让各个链路对能够相互配合进而进行实时的功率决策以最大化全局网络的加权和速率，从而实现了无需迭代的基于深度强化学习的功率分配方法。

技术领域

本发明属于无线通信技术领域，具体的说是涉及一种D2D系统中基于深度强化学习的功率分配方法。

背景技术

全球的网络运营商对为5G的发展和应用表现出浓厚的兴趣。5G的基本思想是利用移动用户之间的直接连接来减轻基站的负担。为了提高蜂窝网络的能量效率并且提高系统吞吐量，设备到设备(D2D)被认为是一种很好并可行的解决方案。在D2D网络中，多对D2D链路对在蜂窝小区中进行全频的复用共存，导致链路之间的干扰变得非常复杂。在D2D场景下，一般通过功率控制进行干扰管理来优化系统容量，传统功率控制算法大部分都是基于实时信道信息通过不断迭代来实现的，耗时的信道估计和复杂的矩阵运算使得实时的功率调整变得非常困难。

发明内容

本发明针对以上传统功率控制中存在问题，提出了一种无需迭代的D2D系统中基于深度强化学习的功率分配方法。

本发明的技术方案是：

一种D2D系统中基于深度强化学习的功率分配方法，假设D2D系统中具有N对链路对，即N个智能体，包括以下步骤：

S1、信息收集：N对链路对分别从中心控制器(Central Controller,CC)中接收过时的信道，功率信息，和其他链路的决策信息，得到各自的观测向量；

S2、网络构建：每一对链路都单独创建自己的网络并建立自己的经验存储池(Replay Buffer)；

S3、在线决策并训练网络：根据链路周围的通信环境中步骤S1所收集的上一时刻的过时观测向量进行在线功率决策，并将智能体和环境交互获得的状态、动作、奖励和观测向量一起存储入经验池中。同时，每一个链路随机地从自身经验池中挑选出一组数据对S2中的网络进行训练，并更新网络参数，下一次进行在线决策时使用更新网络参数后的网络。

本发明提出的一种基于深度强化学习的网络的功率控制模型，主要包括在线的检测和训练：

数据：D2D系统分别为离线模块和在线模块提供信道信息和功率数据。对于离线模块： D2D系统提供有标记的采样数据，作为训练集；对于在线模块：D2D系统提供(无标记)的采样数据，作为检测数据。

网络构建：根据特定的格式为每个链路单独构建一个网络，这个网络负责根据输入的信息给出具体的功率决策和网络的损失函数。

在线训练：通过在线的训练将连续的功率分配看作一个多智能体相互配合的任务。系统为每个链路对都建立了一个固定大小的经验池(Replay Buffer)来存储数据。每个链路对单独地从自己的经验池中拿出数据，进而进行在线的训练强化学习的输出可以建模为后验概率，从而开发适合于功率分配的代价函数(比如，本发明设计的基于最大后验概率的代价函数)；给定训练集，通过不断地在线训练和反馈，得到训练好的网络。

在线决策：在线训练的同时，按照网络的功率分配结果作为实时的功率分配结果。同时将在线决策所收集的数据存储入经验池中作为以后训练的训练数据。在线决策的效果会随着在线训练的进程越来越好。

本发明所提基于深度神经网络输入和隐藏层运用了线性整流函数(RectifiedLinear Unit, ReLU)作为各层的激活函数

Relu(x)＝log(1+exp x)

输出层使用tanh函数来确定最后功率输出档位。输出的值为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110475005.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于Revit的装配式天花精装设计建模方法
下一篇：一种基于剪板机的安全上料辅助装置

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W24-00 监督，监控或测试装置
H04W24-02 .用于优化操作环境的装置
H04W24-04 .用于维护操作环境的装置
H04W24-06 .使用仿真业务量进行测试
H04W24-08 .使用真实业务量进行测试
H04W24-10 .调度测量报告

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种D2D系统中基于深度强化学习的功率分配方法有效

专利文献下载