[发明专利]一种基于DQN的多业务低轨卫星资源分配方法有效
申请号: | 202110523792.0 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113258988B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 唐伦;李子煜;宋艾遥;孙移星;朱丹青;陈前斌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04B7/185 | 分类号: | H04B7/185;H04W72/04;G06N3/08;G06F30/27 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dqn 业务 卫星 资源 分配 方法 | ||
1.一种基于DQN的多业务低轨卫星资源分配方法,其特征在于:包括以下步骤:
S1:建立基于低轨卫星多业务的联合功率和信道分配模型;所述步骤S1具体包括:
S11:卫星网络为用户U提供S={s|s=1,2,...,S}种不同的应用服务,每种服务的优先级权值设置为W=[ω1,ω2,...,ωS],时隙t时波束n的信道分配状态表示为K是波束n中正在服务的呼叫数,其中,表示业务类型,表示呼叫类型,为新呼叫,为切换呼叫,所有波束的信道分配状态构成卫星的信道分配矩阵,表示为V(t)={υ1(t),υ2(t),...,υn(t)};
S12:对于每个新呼叫,其状态表示为其中i是当前新呼叫用户数,表示业务类型,表示呼叫类型,不同时刻下,V(t)会随着用户u(t)的到达或离开而变化,对应分配或释放相应的资源;
S13:用户与卫星之间的端到端时延满足低轨卫星单波束的覆盖时间约束,即业务s的总平均端到端时延和分别表示业务s的平均排队时延和下行链路的传播时延,T=L/vsat为波束覆盖时长,vsat是低轨卫星运行速度,L为已知的卫星覆盖区域直径;
S14:队列稳定性是卫星系统为每个业务构建相应的排队队列Qs(t)满足时,队列是稳定的,其中,Qs(t)表示业务s在时隙t开始时的卫星中缓冲区队列长度,E为队列的期望;
S2:将多波束低轨卫星通信系统资源分配映射为智能体在环境中交互学习获得最大化长期收益的问题;
S3:通过状态重构及DQN算法对步骤S2中的问题进行求解。
2.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:所述步骤S2中具体包括:
S21:状态空间定义为st={V(t),P(t),Qs(t),u(t)},其中,V(t)为时隙t卫星的信道分配信息,P(t)为功率分配信息,Qs(t)为时隙t业务的队列长度,u(t)为时隙t新请求业务的用户信息;
S22:动作空间定义为at={xnc(t),p(t)},其中,xnc(t)表示时隙t波束n中的信道c是否为用户分配信道,xnc(t)=1即时隙t将波束n中的信道c分配给用户,反之xnc(t)=0则不分配,p(t)为用户分配功率的大小;
S23:奖励函数定义为系统即时奖励是网络中所有新业务请求用户的即时奖励之和,等价于其中,ωS为用户的服务类型为s时的权重值,κ反映用户的优先级,即切换用户的优先级高于新接入用户,当新用户请求时,将奖赏收益值设置为与传输速率有关的值,则系统吞吐量表示为其中,Runc表示为用户分配的传输速率,Rth为用户正常传输所需的最小传输速率;当为用户分配的传输速率低于该用户正常传输所需的最小传输速率Rth时,表明此次分配策略效果较差,给予反馈反之给予反馈
3.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:步骤S3中所述的状态重构过程包括:
S311:将与新用户相关的波束简化为源波束周围一圈的波束,被压缩后的波束为其中,表示新请求业务ut的源波束与其周围波束n之间的偏角,h为卫星高度,θ3dB为3dB波束宽度;
S312:压缩后的功率分配信息和卫星信道分配信息分布表示为和
S313:进一步将压缩后的卫星信道分配信息V*(t)和用户u(t)中的信息通过one-hot编码进行处理为重构后的状态空间为φ(st)={U*(t),P*(t),Qs(t)}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110523792.0/1.html,转载请声明来源钻瓜专利网。