[发明专利]一种雾无线接入网中基于强化学习的边缘缓存方法有效
| 申请号: | 201910163764.5 | 申请日: | 2019-03-05 |
| 公开(公告)号: | CN109873869B | 公开(公告)日: | 2021-08-24 |
| 发明(设计)人: | 蒋雁翔;陆镠央;尤肖虎 | 申请(专利权)人: | 东南大学 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;H04W28/14 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 颜盈静 |
| 地址: | 211100 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 无线 接入 基于 强化 学习 边缘 缓存 方法 | ||
1.一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:包括以下步骤:
S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;
S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地,F表示文件库中的文件个数;
S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);
S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:
其中,为近似值函数,s(t)为系统状态,为缓存动作集合,wt为权重向量;
S5:收集用户对各个文件的请求次数,计算得到即时回报函数r(t),并以此计算即时误差函数
S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。
2.根据权利要求1所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S3具体包括以下步骤:
S3-1:收集在第t个时隙内的所有用户请求,以对第f个文件为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:
内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T,文件库
S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yf(t)∈[0,1]L,得出来自用户集中每个用户与每个文件之间的关联性函数:
g[xn(t),yf(t)]=(1-xn(t),yf(t))log(1-α) (3)
其中,L为标记向量的维度,α为相关性参数;
S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中
3.根据权利要求2所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:S4中将求使得当前时隙近似值函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:
S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1));
S4-2:根据内容流行度p(t)和自变量x(t),计算得到代价矢量
S4-3:根据用户偏好向量q(t)和自变量x(t),计算得到代价矢量
S4-4:构建代价向量:
z(t)=[z1(t),z2(t)T,z3(t)T]T;
S4-5:根据权重向量wt和构建的代价向量z(t),得到如下整数规划并求解:
s.t.x(t)∈{0,1}F,x(t)·1=M
其中,M表示节点可缓存的文件个数上限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910163764.5/1.html,转载请声明来源钻瓜专利网。





