[发明专利]一种基于深度强化学习的数据包传输智能决策方法有效
| 申请号: | 202011145525.6 | 申请日: | 2020-10-23 |
| 公开(公告)号: | CN112261725B | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 葛斌;李孜恒;方贤进;杨高明 | 申请(专利权)人: | 安徽理工大学 |
| 主分类号: | H04W72/04 | 分类号: | H04W72/04;G06N3/04;G06N3/08 |
| 代理公司: | 合肥国和专利代理事务所(普通合伙) 34131 | 代理人: | 张祥骞 |
| 地址: | 232001 *** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 数据包 传输 智能 决策 方法 | ||
本发明涉及一种基于深度强化学习的数据包传输智能决策方法,包括:构建深度神经网络模型;设计并初始化状态空间和行为空间;获取数据传输当前状态信息和历史状态信息,输入状态空间;采用经验回放机制保存历史状态信息;对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。本发明提高了用户服务质量,同时降低数据传输能耗,有效提高了通信网络在高度复杂动态环境下数据传输的智能决策能力。
技术领域
本发明涉及无线通信技术领域,尤其是一种基于深度强化学习的数据包传输智能决策方法。
背景技术
随着物联网的发展,移动终端的大规模普及,无线流量激增,数据传输所带来的能耗也在大幅增加。此外,随着绿色网络和智慧网络等新概念的提出,降低能量消耗变得愈发重要。如何在保证用户服务体验的同时,合理制定数据传输策略,实现数据稳定传输以及降低传输能耗,成为了备受关注的话题。
当前背景下的数据传输正变得复杂多样和动态多变,数据传输决策面临着庞大决策空间的考验。同时,考虑到数据包大小和请求数量的不确定性,以及用户对传输时延的强烈需求,传统算法在处理如此复杂动态的数据传输需求时,无法综合考虑诸多限制条件,同时降低传输能耗,较难获得理想的优化效果。
发明内容
本发明的目的在于提供一种能够综合考虑不同大小数据包的到达时间和传输截止时间,同时保证用户服务体验,通过实时性能反馈,动态调整传输策略,实现能量消耗最小化的基于深度强化学习的数据包传输智能决策方法。
为实现上述目的,本发明采用了以下技术方案:一种基于深度强化学习的数据包传输智能决策方法,该方法包括下列顺序的步骤:
(1)构建深度神经网络模型,该模型包含用于计算行为价值函数的原始值神经网络,以及基于行为价值函数的计算结果进行行为选择的目标值神经网络;
(2)设计并初始化状态空间和行为空间;
(3)获取数据传输当前状态信息和历史状态信息,输入状态空间,对数据包的传输次序和发送功率进行优化和分配;
(4)采用经验回放机制保存历史状态信息,并随机采集训练样本进行深度神经网络训练;
(5)根据数据包总数T,对步骤(3)和步骤(4)迭代执行T次,则回合结束;更新目标值神经网络参数θ′,将原始值神经网络的最新参数θ赋予目标值神经网络;
(6)迭代执行步骤(2)至(5),直至迭代次数达到预设的回合上限N或者深度神经网络收敛,则终止并自动得到满足多约束条件限制并且能量消耗更低的数据传输策略。
所述步骤(2)具体是指:根据数据包大小B、发送功率Pi、传输截止时间DL和数据包到达时间AT建立状态信息,选取当前状态信息和三组历史状态信息构成状态空间,行为空间由发送功率Pi构成;状态空间初始化时,首先初始化当前状态信息,分别将初始化后的当前状态信息赋值给另外三组历史状态信息,共同构成初始状态空间;行为空间初始化时,将所有发送功率离散化处理,得到行为空间A={P1,P2,P3,...,Pi}。
所述步骤(3)中对数据包的发送功率分配过程包括以下步骤:
(3a)对所有数据包初始状态信息进行预处理,基于先入先出数据流,按照数据包到达时间升序排列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011145525.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车载定向对讲装置及方法
- 下一篇:一种驱动背板、显示面板及显示装置





