[发明专利]一种基于强化学习的通信资源分配方法及其相关设备在审

申请号：	202110605101.1	申请日：	2021-05-31
公开（公告）号：	CN113543065A	公开（公告）日：	2021-10-22
发明（设计）人：	李斌;蒋丽萍;赵成林;许方敏	申请（专利权）人：	北京邮电大学
主分类号：	H04W4/40	分类号：	H04W4/40;H04W16/14;H04W72/04
代理公司：	北京风雅颂专利代理有限公司 11403	代理人：	孙晓凤
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习通信资源分配方法及其相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的通信资源分配方法，包括：

S1、获取目标用户和非目标用户的位置，初始化所述目标用户的Q值、回报函数和状态信息；

S2、生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略；

S3、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配，计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值；

S4、返回步骤S2循环迭代，直到满足预设的迭代时间或满足预设条件，得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略，并根据所述最终信道选择策略和所述最终功率选择策略，进行通信资源分配。

2.根据权利要求1所述的方法，其中，所述生成随机数，根据所述随机数和ε贪婪算法，确定所述目标用户的信道选择策略和所述目标用户的功率选择策略，包括：

响应于确定所述随机数小于ε，选择使动作策略概率最大的动作策略；

响应于确定所述随机数大于等于ε，选择使所述Q值最大的动作策略。

3.根据权利要求1所述的方法，其中，所述状态信息包括：目标用户链路的发送端到接收端的信道增益，来自其他目标用户链路发送端的干扰增益，目标用户链路发送端到基站的干扰增益，非目标用户到目标用户链路接收端的干扰增益，每个信道上的所述目标用户和非目标用户数目，所述目标用户和非目标用户的通信服务质量。

4.根据权利要求1所述的方法，其中，所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关；

当所述目标用户和非目标用户的通信质量满足最低通信门限要求时，所述回报函数大于0；

当所述目标用户和/或非目标用户的通信质量不满足最低通信门限要求时，所述回报函数小于0。

5.根据权利要求4所述的方法，其中，所述回报函数表示为：

其中，λ_m和λ_n分别是平衡所述目标用户链路和所述非目标用户链路的权重，0≤λ_m≤1，0≤λ_n≤1，β_m,k表示所述非目标用户的通信质量，γ_n,k表示所述目标用户的通信质量，β₀表示所述非目标用户的最低通信门限要求，γ₀表示所述目标用户的最低通信门限要求，r_m表示所述非目标用户可实现的最大通信速率，r_n表示所述目标用户可实现的最大通信速率，R₀＜0。

6.根据权利要求1所述的方法，其中，所述更新所述目标用户的Q值通过下述公式更新：

其中，s_t表示状态信息，a_t表示动作策略，表示下一时刻状态s_t+1下所有可能动作策略的最大Q值，γ为折扣因子,0≤γ≤1,α表示t时刻下的学习因子。

7.根据权利要求1所述的方法，其中，所述目标用户和非目标用户都不少于一个。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110605101.1/1.html，转载请声明来源钻瓜专利网。

上一篇：人脸图像的质量评价方法、装置以及计算机可读存储介质
下一篇：一种摄像装置、摄像方法、设备以及装置

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W4-00 专门适用于无线通信网络的业务或设施
H04W4-02 .利用用户或终端位置的业务
H04W4-06 .广播选择分发；到用户组的业务；单向选呼业务
H04W4-12 .消息传送，例如SMS[短消息业务]；邮箱；通告，例如，通知用户通信请求的状态或进展
H04W4-16 .与通信相关的补充业务,例如，呼叫转移或呼叫保持
H04W4-18 .信息格式或内容转换，例如，为了向用户或终端无线传送的目的，由网络对发送或接收的信息进行适应修改

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的通信资源分配方法及其相关设备在审

专利文献下载