[发明专利]LTE-V中基于深度强化学习的基站选择方法有效
申请号: | 201810885951.X | 申请日: | 2018-08-06 |
公开(公告)号: | CN109195135B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 郭爱煌;谢浩 | 申请(专利权)人: | 同济大学 |
主分类号: | H04W4/40 | 分类号: | H04W4/40;H04W28/02;H04W28/08;H04W48/20 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | lte 基于 深度 强化 学习 基站 选择 方法 | ||
本发明涉及一种LTE‑V中基于深度强化学习的基站选择方法,包括以下步骤:1)根据LTE‑V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争‑双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。与现有技术相比,本发明同时兼顾通信的时延性能和负载均衡性能,使得车辆能够及时可靠地进行通信,具有基站选择效率高、精确度高等优点。
技术领域
本发明涉及LTE-V通信技术和DRL技术,具体涉及一种基于神经网络连续决策的基站选择方法,用于降低LTE-V网络拥塞率。
背景技术
LTE-V(长期演进-车辆,Long Term Evolution-Vehicl)是我国具有自主知识产权的V2X技术,是基于分时长期演进(Time Division-Long Term Evolution,TD-LTE) 的ITS系统解决方案,属于LTE后续演进技术的重要应用分支。2015年2月,3GPP 工作组LTE-V标准化研究工作正式启动,Release 14的提出标志着LTE-V技术标准制定工作在3GPP工作组计划中的正式开始,同时也将在5G中得到兼容和性能的大幅提升。LTE V2V Core part已于2016年底完结,LTE V2X Core part在2017 年初完结,V2V为LTE-V的核心,预计2018年底完结,基于LTE-V技术标准的系统和设备预计将于2020年后开始商用。
在高峰时期和拥堵路段,道路安全和交通效率会产生的负载量很大的周期性广播信息。如果没有合理地拥塞控制方案,这些消息所产生的负载会导致严重的信息延迟,并且会对LTE网络容量带来严峻的考验。除此之外,车辆通过随机竞争选择信道状况最好的基站,这在车流量较大的情况下很容易引发网络拥塞。因此,有必要为LTE-V设计一种有效并且鲁棒性好的eNB(最佳基站,evolved node B)选择算法。
发明内容
本发明的目的就是针对引入LTE-V通信技术的蜂窝通信网的时延性能和网络拥塞方面存在的不足,而提供一种LTE-V中基于深度强化学习的基站选择方法。
本发明的目的可以通过以下技术方案来实现:
一种LTE-V中基于深度强化学习的基站选择方法,包括以下步骤:
1)根据LTE-V网络通信特点及基站选择性能指标,构建Q函数;
2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;
3)以经验回放池为样本,基于构建的Q函数,采用竞争-双重训练方式训练获得一用于选择最优接入基站的主DQN;
4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。
进一步地,所述LTE-V网络通信特点包括通信带宽和信噪比,所述基站选择性能指标包括用户接收速率和基站负载。
进一步地,所述Q函数具体构建如下:
式中,μ表示用户接收速率,L表示基站负载,R表示奖励函数,α表示学习率, Q(st,at)表示在t时刻处于状态s采取动作a所能获得的期望奖励,下标s'表示在状态s处采取动作a进入的下一个状态,γ∈[0,1]为折扣因子,w1、w2为权重系数,表示在t+1时刻处于状态s采取不同动作所能获得的最大期望奖励。
进一步地,所述竞争-双重训练方式中:
基于Q函数建立一目标DQN和一主DQN,由主DQN选择基站,该基站的Q 函数最大值由目标DQN计算生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810885951.X/2.html,转载请声明来源钻瓜专利网。