[发明专利]一种基于强化学习的通信资源分配方法及其相关设备在审

专利信息
申请号: 202110605101.1 申请日: 2021-05-31
公开(公告)号: CN113543065A 公开(公告)日: 2021-10-22
发明(设计)人: 李斌;蒋丽萍;赵成林;许方敏 申请(专利权)人: 北京邮电大学
主分类号: H04W4/40 分类号: H04W4/40;H04W16/14;H04W72/04
代理公司: 北京风雅颂专利代理有限公司 11403 代理人: 孙晓凤
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 通信 资源 分配 方法 及其 相关 设备
【权利要求书】:

1.一种基于强化学习的通信资源分配方法,包括:

S1、获取目标用户和非目标用户的位置,初始化所述目标用户的Q值、回报函数和状态信息;

S2、生成随机数,根据所述随机数和ε贪婪算法,确定所述目标用户的信道选择策略和所述目标用户的功率选择策略;

S3、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配,计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值;

S4、返回步骤S2循环迭代,直到满足预设的迭代时间或满足预设条件,得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略,并根据所述最终信道选择策略和所述最终功率选择策略,进行通信资源分配。

2.根据权利要求1所述的方法,其中,所述生成随机数,根据所述随机数和ε贪婪算法,确定所述目标用户的信道选择策略和所述目标用户的功率选择策略,包括:

响应于确定所述随机数小于ε,选择使动作策略概率最大的动作策略;

响应于确定所述随机数大于等于ε,选择使所述Q值最大的动作策略。

3.根据权利要求1所述的方法,其中,所述状态信息包括:目标用户链路的发送端到接收端的信道增益,来自其他目标用户链路发送端的干扰增益,目标用户链路发送端到基站的干扰增益,非目标用户到目标用户链路接收端的干扰增益,每个信道上的所述目标用户和非目标用户数目,所述目标用户和非目标用户的通信服务质量。

4.根据权利要求1所述的方法,其中,所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关;

当所述目标用户和非目标用户的通信质量满足最低通信门限要求时,所述回报函数大于0;

当所述目标用户和/或非目标用户的通信质量不满足最低通信门限要求时,所述回报函数小于0。

5.根据权利要求4所述的方法,其中,所述回报函数表示为:

其中,λm和λn分别是平衡所述目标用户链路和所述非目标用户链路的权重,0≤λm≤1,0≤λn≤1,βm,k表示所述非目标用户的通信质量,γn,k表示所述目标用户的通信质量,β0表示所述非目标用户的最低通信门限要求,γ0表示所述目标用户的最低通信门限要求,rm表示所述非目标用户可实现的最大通信速率,rn表示所述目标用户可实现的最大通信速率,R0<0。

6.根据权利要求1所述的方法,其中,所述更新所述目标用户的Q值通过下述公式更新:

其中,st表示状态信息,at表示动作策略,表示下一时刻状态st+1下所有可能动作策略的最大Q值,γ为折扣因子,0≤γ≤1,α表示t时刻下的学习因子。

7.根据权利要求1所述的方法,其中,所述目标用户和非目标用户都不少于一个。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110605101.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top