[发明专利]一种基于深度强化学习的D2D通信网络切片分配方法有效
申请号: | 202110444019.5 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113163451B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 刘元杰;伍沛然;夏明华 | 申请(专利权)人: | 中山大学 |
主分类号: | H04W28/16 | 分类号: | H04W28/16;H04W72/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 d2d 通信 网络 切片 分配 方法 | ||
1.一种基于深度强化学习的D2D通信网络切片分配方法,其特征在于,包括以下步骤:
S1:将通信业务根据业务类型进行分类,建立多业务切片和D2D切片资源分配模型;
S2:根据Dueling DDQN算法构建切片资源分配的强化学习模型;
S3:为Dueling DDQN算法中的智能体定义业务切片的当前状态s、下一时刻状态s′,当前动作a,以及由状态和动作构建系统的奖励r;
S4:利用经验回放进行Dueling DDQN的学习,最后得到切片资源分配的最优解;
步骤S1中所述将通信业务根据业务类型进行分类,具体分为控制类、数据采集类、媒体类和D2D通信;
步骤S1中建立多业务切片和D2D切片资源分配模型具体为:
所述控制类通信对应于uRLLC切片,数据采集类通信对应于mMTC切片,媒体类对应于eMBB切片,D2D通信则通过复用uRLLC、mMTC、eMBB切片中的资源形成D2D通信切片;
定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,构建所述的多业务切片和D2D切片资源分配模型;
所述定义各切片的效用,根据各切片的效用定义系统的效用,以系统最大效用为目标,定义系统的优化目标和约束条件,具体为:
切片的效用由一段时间内,切片中的所用用户成功传输的数据包数量和生成的数据包的数量和比例获得,用公式表示为:
式中,QoEn表示数据包成功传输的比例,即切片的效用;是切片所服务的所有用户的集合,而表示用户un所产生的数据包的集合,表示对于数据包用户un是否成功传输,即如果用户un进行数据包的传输时,能够满足业务的速率要求以及时延要求那么否则rn为最低的速率要求,为用户的数据速率,ln为最大的时延要求,为用户的时延;
所述系统的效用表示为各切片的效用的加权和,系统的优化模型用公式表示为:
其中,βn是表示切片业务优先级的权重,约束条件C1是系统总体带宽的限制,则表明D2D通信复用上行资源进行传输,C2表明在一定的时间间隔内,切片业务数据包产生的总数量为TQn,C3则表示用户的数据包传输是否成功的限制。
2.根据权利要求1所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,所述用户的数据速率由分配给用户的频谱资源以及无线信道的信干噪比,而信干噪比由用户与基站之间的无线信道的信道增益,接收基站的接收增益、用户的发射功率、其他干扰用户到基站之间的无线信道的信道增益,其他干扰用户的发射功率决定,数据速率用公式表示为:
其中,信干噪比为:
是用户的发射功率,是用户到基站之间的信道增益,是用户受到的干扰,σ2表示噪声;
用户数据包的时延包括数据包的等待时间lwa和数据包的传输时间ltr:
3.根据权利要求2所述的基于深度强化学习的D2D通信网络切片分配方法,其特征在于,步骤S2中根据Dueling DDQN算法构建切片资源分配的强化学习模型,具体为:
将基站中的切片资源分配控制器定义为强化学习智能体,并创建训练Q神经网络和目标Q神经网络两个网络,所述训练Q神经网络在每一个训练时刻都进行网络权重的更新,而所述目标Q神经网络则按照预设的频率复制所述训练Q神经网络的权重来进行更新,所述训练Q神经网络与所述目标Q神经网络具有一样的结构;
训练Q神经网络和目标Q神经网络的输入是系统的状态,输出分为两个支路,一个支路输出一个标量,表示状态值函数;另一个支路输出动作的优势函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444019.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:流量转发系统、设备、方法以及物联网系统
- 下一篇:一种补偿式密封的蝶阀