[发明专利]一种移动边缘计算中的缓存策略决策方法有效
申请号: | 202010919693.X | 申请日: | 2020-09-04 |
公开(公告)号: | CN112218337B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 周继鹏;庄娘涛;纪杨阳;张效铨 | 申请(专利权)人: | 暨南大学 |
主分类号: | H04W28/10 | 分类号: | H04W28/10;H04W28/14;G06N3/045;G06N3/084 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 詹丽红 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 边缘 计算 中的 缓存 策略 决策 方法 | ||
1.一种移动边缘计算中的缓存策略决策方法,其特征在于,所述决策方法包括下列步骤:
S1、构建移动边缘计算的多小区网络模型,该多小区网络模型包括宏基站、小基站和移动用户,其中宏基站简称MBS,小基站简称SBS;每个小区配备一个MBS、s个SBS和h个移动用户;SBS与移动用户之间通过无线连接,SBS向在服务范围内的移动用户提供服务,每个移动用户可能会在多个SBS的服务范围内,但在同一时间里,移动用户只能够与一个SBS连接获取服务;MBS与同小区的SBS通过无线连接,不同小区的MBS间通过高容量链路连接,并且每个MBS还通过回程链路与远端互联网络连接;
S2、将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法,训练深度Q网络算法的神经网络参数,深度Q网络算法简称DQN算法;所述DQN算法是结合神经网络的Q-learning算法,通过不断与环境的交互,选择最佳的动作,实现过程如下:
将环境状态作为输入,输出动作和所对应的Q值,使用ε-greedy贪婪算法,以概率ε随机选择一个动作,以概率1-ε选择最优Q值的动作,执行选择的动作进入下一个状态,将这条记录加入到DQN算法的经验池中进行二次训练,DQN算法的神经网络训练优化网络参数,待训练完毕,输出值运用最优解策略,输出最优解;
所述DQN算法的状态定义为:在某个时隙t下,所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集,那么,在时隙t下的状态Xt表示为:
Xt=(Ot,At),t=1,2,…,T
其中Ot表示时隙t内所有移动用户的文件请求信息集合,At表示在时隙t时的所有基站缓存的文件集合;
所述DQN算法的动作定义为:当在某个时隙t下的状态Xt时,处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限,在时隙t下,小区i内基站j的文件调整用一个F×F矩阵表示:
其中C={c1,c2,…,cm}表示小区集合,m表示多小区网络模型下小区的个数;Bi个数表示小区i下所有基站组成的集合;apq={0,1}表示基站执行的动作,取1表示将基站的内容q替换成内容p,当p=q时表示该基站的内容保持不变,显然,存在约束条件:
其中,F表示多小区网络模型的文件库大小;
该时隙t下的动作集为:
所述DQN算法的奖励函数表示为:
其中Et(At)表示多小区网络模型在时隙t下的成本函数,表达式如下:
Et(At)=α·L(At)+(1-α)·D(At),t=1,2,…,T
其中α∈(0,1)表示权重因子;D(At)表示时隙t的全局网络的总时延成本;L(At)表示时隙t的全局网路下产生的回程链路负载成本;
所述时隙t的全局网络的总时延成本表示为:
其中表示服务移动用户u产生的文件请求带来的时延成本,表示时隙t内所有移动用户产生的请求文件集合,Ui表示小区i的用户集合,表述如下:
其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本;t0表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本,t(u,mbi)表示从MBS传输到移动用户的时延成本;Vbs表示全局网络下所有基站组成的集合,Atotal=∪i∈CAi表示全局网络下缓存的文件并集,mbi表示小区i内的MBS;
一旦移动用户的文件请求能够在小区层面上得到服务,就不用再将请求发送到远端的核心云来获取服务,将时隙t的全局网路下产生的回程链路负载成本表示为:
其中At表示全局网络的缓存策略,表示全局网络下文件f的在时隙t被访问的次数,Sf表示文件f的文件大小,集合表示集合Atotal关于文件库F的补集;
所述DQN算法的Q值函数更新公式为:
其中Xt,Yt表示当前时隙的状态和动作集,Xt+1,Yt+1表示下个时隙的状态和动作集,R(Xt+1,Yt+1)表示下一时隙的奖励函数;α表示学习率,λ∈[0,1)是衰减系数,当λ趋近于0时,全局网络将倾向于注重当前的瞬时奖励,若λ趋于1时,全局网络将倾向于注重未来的回报;
所述DQN算法使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型,通过神经网络模型q(Xt,Yt,θ)来模拟动作值函数q(Xt,Yt),即:q(Xt,Yt,θ)≈q(Xt,Yt)
根据上述Q值函数更新公式,使用均方误差来定义目标函数,作为神经网络的损失函数为:
其中Ε表示数学期望;最后,使用梯度下降法来实现神经网络模型对目标函数的优化;
S3、MEC服务器将运行时间划分为T个时隙,在每个时隙的开始,MEC服务器收集服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据;
S4、使用DQN算法输出缓存策略和所对应的Q值,选择Q值最高的缓存策略作为当前时隙的最佳缓存策略;
S5、MEC服务器按照当前时隙的最佳缓存策略为部署依据,从文件库抓取相应的文件缓存;
S6、多小区网络模型完成当前时隙的文件部署后,判断是否结束,否则进入下一时隙,收集下一时隙内的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中,转到步骤S4。
2.根据权利要求1所述的一种移动边缘计算中的缓存策略决策方法,其特征在于,所述移动用户的文件请求被服务的规则为:当移动用户位于多个SBS服务范围内时,若请求的文件缓存在以上SBS当中,则直接发送给移动用户,倘若不是,则通过MBS找到缓存有该文件的基站位置,并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户;若本小区没有缓存该文件,则借助其它小区的协作获取到文件发送给移动用户,否则,将请求发送给远端云核心网获取文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010919693.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种边缘设备资源高效利用方法
- 下一篇:一种牙颌边界特征自动化识别方法