[发明专利]基于深度强化学习的文件缓存处理系统及方法、通信系统有效
| 申请号: | 201910065280.7 | 申请日: | 2019-01-23 |
| 公开(公告)号: | CN109981723B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 何倩;陈壮;刘阳;董庆贺;梁任纲 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L12/911 |
| 代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
| 地址: | 541000 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 文件 缓存 处理 系统 方法 通信 | ||
1.一种基于深度强化学习的文件缓存处理方法,其特征在于,所述基于深度强化学习的文件缓存处理方法包括以下步骤:
第一步,缓存请求者的属性信息,每个请求缓存内容的大小和可利用的缓存资源的设备属性信息被移动基站收集,作为决策智能体的输入信息;
第二步,决策智能体在设定时间范围内根据随机梯度下降方法和推演并设计缓存匹配的操作;
第三步,输出一个最优的匹配,即具有最大的系统效益,分配缓存资源;
所述基于深度强化学习的文件缓存处理方法进一步包括:
1)状态:S=(Fm;Cn;Bn),其中Fm表示文件m,Cn表示可用的缓存资源供应商n的缓存资源大小,Bn表示可用的缓存资源供应商n的带宽大小;移动基站将上述信息打包成一个状态,发送给决策智能体;
2)决策:A=(x_mn;b_mn),其中x_mn是二进制值,取0或1;b_mn是可利用的带宽大小;
3)奖励值:根据当前的状态和决策,决策智能体从环境中获得奖励值,奖励值的大小与目标函数有关,在本发明中,系统效益函数即为奖励函数;
所述基于深度强化学习的文件缓存处理方法还包括:使用深度强化学习方法用来计算移动智能设备的实时的缓存资源大小,预测缓存请求者和缓存资源供应商之间的通信持续时间,并执行智能缓存对匹配和带宽资源分配策略;如果缓存请求者的内容成功存储在一个缓存供应商中,缓存请求者创建一个响应事务并将其发送给相关联的移动基站,定义三个角色包括:
缓存请求者:缓存资源受限并且有超额的缓存内容需求的移动智能设备;
移动基站:关联信号覆盖范围内的所有移动智能设备,并周期性更新所有设备的缓存资源数量信息;接收缓存请求者的缓存资源请求任务信息;广播所有收到的缓存资源请求任务信息到本地缓存资源供应商;缓存资源供应商将缓存资源的数量反馈给该移动基站;该移动基站使用深度强化学习算法匹配移动智能设备之间的缓存供需,确定每个缓存提供商可以提供的缓存资源,并优化带宽资源分配,在所有的缓存资源供应商中选择一个最优的执行缓存任务;
缓存资源供应商:具有充足的缓存资源;
所述基于深度强化学习的文件缓存处理方法的文件缓存问题表述为优化问题,即最大化系统效益,系统效益包括缓存效益,能源成本和带宽成本,定义:
系统缓存效益函数:
S_utility=x_mn*(g_Price_C*c_Total)
系统缓存成本函数:
S_cost=g_Energy_C*c_Total+(c_Total/(action_band*Sp))*P
系统效益函数:
S_total=S_utility-S_cost
具有X个移动基站的缓存网络,M个缓存请求者和N个缓存提供者;如果缓存请求者m的内容存储在缓存资源供应商n中,则x_mn=1,否则x_mn=0;
其中,g_Price_C是单位存储内容的价格,
c_Total是当前总缓存任务的大小;
g_Energy_C*c_Total是能源的消耗成本,g_Energy_C是单位缓存内容的能源消耗,
c_Total+(c_Total/(action_band*Sp))*P是通信的消耗成本,c_Total/(action_band*Sp是传输内容的通信时间,P是移动智能设备的发射功率,action_band是传输速率,Sp是传输速率干扰系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910065280.7/1.html,转载请声明来源钻瓜专利网。





