[发明专利]一种移动边缘计算中的缓存策略决策方法有效

申请号：	202010919693.X	申请日：	2020-09-04
公开（公告）号：	CN112218337B	公开（公告）日：	2023-02-28
发明（设计）人：	周继鹏;庄娘涛;纪杨阳;张效铨	申请（专利权）人：	暨南大学
主分类号：	H04W28/10	分类号：	H04W28/10;H04W28/14;G06N3/045;G06N3/084
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	詹丽红
地址：	510632 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种移动边缘计算中的缓存策略决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种移动边缘计算中的缓存策略决策方法，其特征在于，所述决策方法包括下列步骤：

S1、构建移动边缘计算的多小区网络模型，该多小区网络模型包括宏基站、小基站和移动用户，其中宏基站简称MBS，小基站简称SBS；每个小区配备一个MBS、s个SBS和h个移动用户；SBS与移动用户之间通过无线连接，SBS向在服务范围内的移动用户提供服务，每个移动用户可能会在多个SBS的服务范围内，但在同一时间里，移动用户只能够与一个SBS连接获取服务；MBS与同小区的SBS通过无线连接，不同小区的MBS间通过高容量链路连接，并且每个MBS还通过回程链路与远端互联网络连接；

S2、将多小区边缘网络模型的移动用户的历史请求信息集合和基站的历史缓存文件集合作为训练集输入到深度Q网络算法，训练深度Q网络算法的神经网络参数，深度Q网络算法简称DQN算法；所述DQN算法是结合神经网络的Q-learning算法，通过不断与环境的交互，选择最佳的动作，实现过程如下：

将环境状态作为输入，输出动作和所对应的Q值，使用ε-greedy贪婪算法，以概率ε随机选择一个动作，以概率1-ε选择最优Q值的动作，执行选择的动作进入下一个状态，将这条记录加入到DQN算法的经验池中进行二次训练，DQN算法的神经网络训练优化网络参数，待训练完毕，输出值运用最优解策略，输出最优解；

所述DQN算法的状态定义为：在某个时隙t下，所有移动用户的文件请求信息和当前时隙下各个基站缓存的文件集，那么，在时隙t下的状态X^t表示为：

X^t＝(O^t,A^t),t＝1,2,…,T

其中O^t表示时隙t内所有移动用户的文件请求信息集合，A^t表示在时隙t时的所有基站缓存的文件集合；

所述DQN算法的动作定义为：当在某个时隙t下的状态X^t时，处于多小区网络模型下的每个基站具备将自身缓存的文件集的文件保留与替换的权限，在时隙t下，小区i内基站j的文件调整用一个F×F矩阵表示：

其中C＝{c₁,c₂,…,c_m}表示小区集合，m表示多小区网络模型下小区的个数；Bⁱ个数表示小区i下所有基站组成的集合；a_pq＝{0,1}表示基站执行的动作，取1表示将基站的内容q替换成内容p，当p＝q时表示该基站的内容保持不变，显然，存在约束条件：

其中，F表示多小区网络模型的文件库大小；

该时隙t下的动作集为：

所述DQN算法的奖励函数表示为：

其中E^t(A^t)表示多小区网络模型在时隙t下的成本函数，表达式如下：

E^t(A^t)＝α·L(A^t)+(1-α)·D(A^t),t＝1,2,…,T

其中α∈(0,1)表示权重因子；D(A^t)表示时隙t的全局网络的总时延成本；L(A^t)表示时隙t的全局网路下产生的回程链路负载成本；

所述时隙t的全局网络的总时延成本表示为：

其中表示服务移动用户u产生的文件请求带来的时延成本，表示时隙t内所有移动用户产生的请求文件集合，Uⁱ表示小区i的用户集合，表述如下：

其中t(u,j)来表示基站j为移动用户u服务所带来的最小时延成本；t₀表示文件从互联网传输到移动用户所在小区的MBS所带来的时延成本，t(u,mb_i)表示从MBS传输到移动用户的时延成本；V_bs表示全局网络下所有基站组成的集合，A_total＝∪_i∈CAⁱ表示全局网络下缓存的文件并集，mb_i表示小区i内的MBS；

一旦移动用户的文件请求能够在小区层面上得到服务，就不用再将请求发送到远端的核心云来获取服务，将时隙t的全局网路下产生的回程链路负载成本表示为：

其中A^t表示全局网络的缓存策略，表示全局网络下文件f的在时隙t被访问的次数，S_f表示文件f的文件大小，集合表示集合A_total关于文件库F的补集；

所述DQN算法的Q值函数更新公式为：

其中X^t,Y^t表示当前时隙的状态和动作集，X^t+1,Y^t+1表示下个时隙的状态和动作集，R(X^t⁺¹,Y^t+1)表示下一时隙的奖励函数；α表示学习率，λ∈[0,1)是衰减系数，当λ趋近于0时，全局网络将倾向于注重当前的瞬时奖励，若λ趋于1时，全局网络将倾向于注重未来的回报；

所述DQN算法使用一个权重参数为θ的深度神经网络作为动作值函数的神经网络模型，通过神经网络模型q(X^t,Y^t,θ)来模拟动作值函数q(X^t,Y^t)，即：q(X^t,Y^t,θ)≈q(X^t,Y^t)

根据上述Q值函数更新公式，使用均方误差来定义目标函数，作为神经网络的损失函数为：

其中Ε表示数学期望；最后，使用梯度下降法来实现神经网络模型对目标函数的优化；

S3、MEC服务器将运行时间划分为T个时隙，在每个时隙的开始，MEC服务器收集服务范围内移动用户的文件请求信息和MEC服务器内的缓存文件集合作为DQN算法的输入数据；

S4、使用DQN算法输出缓存策略和所对应的Q值，选择Q值最高的缓存策略作为当前时隙的最佳缓存策略；

S5、MEC服务器按照当前时隙的最佳缓存策略为部署依据，从文件库抓取相应的文件缓存；

S6、多小区网络模型完成当前时隙的文件部署后，判断是否结束，否则进入下一时隙，收集下一时隙内的移动用户文件请求信息和MEC服务器内的缓存文件集合输入到DQN算法中，转到步骤S4。

2.根据权利要求1所述的一种移动边缘计算中的缓存策略决策方法，其特征在于，所述移动用户的文件请求被服务的规则为：当移动用户位于多个SBS服务范围内时，若请求的文件缓存在以上SBS当中，则直接发送给移动用户，倘若不是，则通过MBS找到缓存有该文件的基站位置，并通过MBS传送到能够给目标移动用户提供服务的SBS再传输给移动用户；若本小区没有缓存该文件，则借助其它小区的协作获取到文件发送给移动用户，否则，将请求发送给远端云核心网获取文件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于暨南大学，未经暨南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010919693.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W28-00 网络业务量或资源管理
H04W28-02 .业务量管理，例如流量控制或拥塞控制
H04W28-16 .中央资源管理；资源协商，例如协商带宽或QoS[服务质量]
H04W28-18 ..协商无线通信参数
H04W28-24 ..协商SLA[业务等级协定]；协商QoS[服务质量]
H04W28-26 ..资源预留

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种移动边缘计算中的缓存策略决策方法有效

专利文献下载