[发明专利]一种VANET中基于时变线性的加速强化学习边缘缓存方法在审
申请号: | 202010356468.X | 申请日: | 2020-04-29 |
公开(公告)号: | CN111629218A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 赵海涛;段佳秀;冯天翼;曹浩彤;张晖;朱洪波 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04N21/2183 | 分类号: | H04N21/2183;H04N21/222;H04N21/258;G06N20/00 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 vanet 基于 线性 加速 强化 学习 边缘 缓存 方法 | ||
1.一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,包括以下步骤:
(1)构建动态的时变线性预测模型,通过考虑每个文件的动态老化,并根据历史内容请求来预测未来的内容请求;
(2)构建文件缓存替换函数,并对该函数进行调整;
(3)优化缓存策略函数,通过合成假设样本来增加每个时隙的样本数,以达到Q函数的快速收敛,并相应地替换缓存的内容,最大化总的缓存效益。
2.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(1)包括以下步骤:
(11)设文件f的第一次请求时刻为τt,在t时刻请求文件的t-τt维特征向量Xt,f表示如下为:
(12)根据t时刻所观察到的历史请求内容,设置t时刻的预测内容f的请求如下:
(13)通过施加以下线性约束来估计最优参数向量θ:
其中,参数θi,j为第一次请求时刻为i的文件f,在时刻t-i和t-j处请求的相关系数,且0≤θi,j≤1,1≤j≤i。
3.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(2)包括以下步骤:
(21)定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,…,s};对于t时刻的状态st,缓存向量由动作at=π(st)决定,表示时刻t处缓存更新的文件数;用Vt(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值;将一个完整的决策策略用π表示,则状态st的最优表示如下:
(22)为了使任意状态s的平均奖励值最大化,给出以下优化函数:
其中,Π为策略函数组成的集合;
(23)状态s服从策略π,因此奖励值满足以下方程:
其中,Tt(s,a,s')表示状态st在动作at作用下进入下一状态s't的跃迁概率。
4.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(3)包括以下步骤:
(31)设Q*(s,a)是在状态s下采取行动a的预期奖励,之后通过选择最佳行动持续进行,G*(s)是假设最初采取最佳动作的状态s的值,因此,G*(s)=maxaQ*(s,a),其中,Q*(s,a)可以表示如下:
(32)时刻t的Q函数用随机近似方法更新为其中,αt为学习速率;
(33)通过合成虚拟样本增加样本数,并用加速强化学习算法更新Q值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010356468.X/1.html,转载请声明来源钻瓜专利网。