[发明专利]卫星信道分配方法及装置有效
申请号: | 202110525719.7 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113271677B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 吴胜;纪哲;胡东伟;王力男;李海涵 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W84/06 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卫星 信道 分配 方法 装置 | ||
1.一种卫星信道分配方法,其特征在于,所述方法包括:
获取环境中的各个信道在时刻t的环境状态St;
根据预先确定出的用于表征环境状态与分配策略之间的映射关系以及所述环境状态St,确定与所述环境状态St对应的分配策略At;
根据所述分配策略At为所述各个信道分配信道资源;
其中,所述环境状态St用于表征所述各个信道的信道资源在时刻t的分配情况,以及所述各个信道的信道资源在时刻t的使用情况;所述分配策略At用于表征在时刻t时,所述各个信道采取的资源分配动作;
其中,在所述确定与所述环境状态St对应的分配策略At之前,所述方法还包括:
获取所述各个信道在前一时刻t-1的环境状态St-1、按照与所述环境状态St-1对应的分配策略At-1进行信道资源分配,致使所述环境状态St-1变更到所述环境状态St后所得到的实时反馈rt;
基于公式:确定出价值函数Q(St,At);
其中,αq为学习率,且αq∈(0,1],γq为所述实时反馈rt与长期反馈的折中参数;
所述价值函数Q(St,At)用于表征在所述时刻t时,所述环境状态St与所述分配策略At之间的映射关系。
2.根据权利要求1所述的方法,其特征在于,在所述确定与所述环境状态St对应的分配策略At之前,所述方法还包括:
将所述环境状态St输入到神经网络模型中,并通过所述神经网络模型计算出价值函数Q(St,At);
所述价值函数Q(St,At)用于表征在所述时刻t时,所述环境状态St与所述分配策略At之间的映射关系;
其中,所述通过所述神经网络模型计算出价值函数Q(St,At),包括:
获取所述各个信道在既往各个时刻所对应的环境状态发生变更后所得到的实时反馈ri,i为整数;
获取所述各个信道在前一时刻t-1的环境状态St-1;
根据所述环境状态St-1、所述环境状态St以及所述各个信道在既往各个时刻所对应的环境状态发生变更后所得到的实时反馈ri为所述神经网络模型赋值;
其中,所述神经网络模型的输出是价值函数Q(St,At);
所述神经网络模型的输入为所述环境状态St;
用于训练所述神经网络模型的损失函数为:Loss(ζ|S)=Eζ[G(ζ)];
用于训练所述神经网络模型的梯度函数为:
其中,pθ(ζ|S)表征在给定的时间点的环境状态S下,其下一时间点所对应的下一环境状态的解ζ的条件概率,且ζ={s1,...,sn},n∈[1,2,...,N],N为信道的总个数,sn为所述下一环境状态中第n个信道的状态;j为正整数,θ为所述神经网络模型的待更新参数。
3.根据权利要求2所述的方法,其特征在于,所述神经网络模型为ANN人工神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110525719.7/1.html,转载请声明来源钻瓜专利网。