[发明专利]一种基于强化学习的智能电网切片无线资源分配方法及系统在审
申请号: | 202010412340.0 | 申请日: | 2020-05-15 |
公开(公告)号: | CN111953510A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 王智慧;王继业;汪洋;汤亿则;孟萨出拉;刘明月;吴赛;杨德龙;杨鸿珍;邱兰馨 | 申请(专利权)人: | 中国电力科学研究院有限公司;国网浙江省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04W28/16;H04W72/10 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 智能 电网 切片 无线 资源 分配 方法 系统 | ||
1.一种基于强化学习的智能电网切片无线资源分配方法,所述方法包括:
基于智能电网场景下的不同电力业务的需求对所述电力业务进行分类,并为多个所述电力业务设置优先级;
按照所述电力业务的分类将所述电力业务与电网切片进行关联;
建立电网业务资源分配的强化学习优化模型,根据所述强化学习优化模型的当前切片状态和奖励函数确定下一个状态执行的动作,基于最小成本原则为电网业务分配电网切片;其中优先级高的电力业务优先分配电网切片。
2.根据权利要求1所述的方法,将多个所述电网切片按需求进行联合,通过切片管理器管理对应的切片。
3.根据权利要求1所述的方法,所述电力业务的类别包括:电网控制类、信息采集类和移动应用类;
所述电力业务的需求包括时延、速率、可靠性。
4.根据权利要求1所述的方法,所述建立电网业务资源分配的强化学习优化模型,包括:
所述状态空间为:
电网切片m在第n个状态下的当前状态sm用于指示当前所有可用于承载相关电力业务的切片的状态空间;
每个用户的需求dk=d1,d2,...,dK;
系统的频谱效率SE可定义为:
其中,B是基站n的系统带宽,R是传输速率,bk是分配给用户k的带宽;σ2表示热噪声功率,表示信道增益,基站n的发射功率用pn表示,N为系统中的基站总数量,l为系统中的某个基站;
用户体验质量QoE定义为:
∑s∈Mμs=1
其中R为传输速率;为单位时间内用户的最大传输速率;是用户实际速率与最大速率的比值;μs表示用户的优先级,基于用户体验质量QoE确定电力业务的优先级;
所述奖励函数为:
Reward=λ·SE+γ·QoE,
其中,λ,γ分别代表SE和QoE的权重系数;SE代表频谱效率,QoE表示用户体验质量。
5.根据权利要求4所述的方法,所述强化学习优化模型的算法为:
设置状态空间为S={s1,s2,...,sn},动作空间为A={a1,a2,...,an},奖励函数为Reward={st,at},P(st,st+1)表示从状态st转移到st+1的转移概率;
策略π:S→A,从状态空间到动作空间的映射,代表从状态st进行at的动作,变换到下一状态st+1;强化学习算法通过定义值函数得到最优策略,值函数定义为下式:
V代表值函数,γ是表示未来效用对当前效用的重要性的一个系数,ri代表第i次奖励函数的值,最优策略对应着最大值函数,即:
根据Q-learning算法,切片控制器通过迭代学习到最优的Q值;在任意时刻,处于状态s的切片控制器选择动作a,得到奖励Reward(s,a),同时也会转移到下一个状态s′;
其中,α代表学习率;Q(s,a)表示状态为s,动作为a时的Q值;
通过调整α和γ的值,保证Q(s,a)最终可以收敛到最优策略时候的值,即Q*(s,a)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电力科学研究院有限公司;国网浙江省电力有限公司信息通信分公司;国家电网有限公司,未经中国电力科学研究院有限公司;国网浙江省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010412340.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:侧支通气评估系统
- 下一篇:计算设备壳体、贮存设备抽屉和计算系统