[发明专利]一种基于强化学习的边缘缓存方法、装置及电子设备有效
申请号: | 202010238321.0 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111465057B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 范绍帅;胡力芸;田辉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04W28/14 | 分类号: | H04W28/14;H04L29/08;G06N20/00 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;马敬 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 边缘 缓存 方法 装置 电子设备 | ||
1.一种基于强化学习的边缘缓存方法,其特征在于,所述方法包括:
获取预设时间段内多个小小区中所有内容的请求次数及当前小小区的内容缓存情况,其中,所述多个小小区包括当前小小区;
基于所述多个小小区中所有内容的请求次数,计算每一内容对应的第一内容流行度和第二内容流行度,得到内容流行度特征矩阵;其中,所述内容流行度特征矩阵包含:第一内容流行度特征向量以及第二内容流行度特征向量,所述第一内容流行度表示对应内容在所述多个小小区中的内容流行度,所述第二内容流行度表示对应内容在当前小小区中的内容流行度,所述第一内容流行度特征向量由各内容的第一内容流行度构成,所述第二内容流行度特征向量由各内容的第二内容流行度构成;
根据所述当前小小区的内容缓存情况,确定所述所有内容对应的动作向量;将所述内容流行度特征矩阵与所述动作向量,构成所述多个小小区中所有内容对应的状态矩阵;将所述状态矩阵,输入预先训练好的基于强化学习算法构建的缓存策略模型中,得到在当前小小区中各内容的缓存策略;其中,所述缓存策略包含:缓存和不缓存,所述基于强化学习算法构建的缓存策略模型是根据样本内容流行度特征矩阵、样本内容对应的内容缓存情况以及样本内容对应的动作向量训练得到的,所述样本内容对应的动作向量表示当前时刻各内容的缓存策略的真值;所述基于强化学习算法构建的缓存策略模型为,具有异步优势的行动者-评论家算法A3C模型,所述A3C模型的训练过程,包括:构建初始A3C模型,所述初始A3C模型,由多个并行的工作者模块和全局网络模块构成;其中,所述工作者模块包括:策略网络子模块和评估网络子模块;针对每一工作者模块,执行以下步骤:步骤S1,获取样本内容流行度特征矩阵,以及样本内容对应的动作向量,所述样本内容对应的动作向量是根据所述样本内容对应的内容缓存情况确定的;步骤S2,将所述样本内容流行度特征矩阵,与所述样本内容对应的动作向量,构成所述样本内容对应的当前状态矩阵;步骤S3,基于所述样本内容对应的当前状态矩阵,使用预设表达式,计算当前状态矩阵中内容缓存情况的缓存收益;步骤S4,将所述当前状态矩阵,输入所述策略网络子模块中,得到下一时刻动作向量的概率分布值;步骤S5,将所述当前状态矩阵,输入所述评估网络子模块中,得到所述当前状态矩阵中动作向量的评估值;步骤S6,基于所述当前状态矩阵中内容缓存情况的缓存收益,以及所述当前状态矩阵中动作向量的评估值,更新所述策略网络子模块和所述评估网络子模块的参数;步骤S7,根据所述下一时刻动作向量的概率分布值,以及预设的规则,更新所述当前状态矩阵中的动作向量,并更新所述当前状态矩阵;步骤S8,根据预设周期,将当前工作者模块中所述策略网络子模块和所述评估网络子模块的参数,发送至所述全局网络模块,以使所述全局网络模块对所述策略网络子模块和所述评估网络子模块的参数进行存储;步骤S9,接收所述全局网络模块下发的所述策略网络子模块和所述评估网络子模块的参数,并对当前工作者模块中的所述策略网络子模块和所述评估网络子模块的参数进行更新;步骤S10,判断当前迭代次数是否达到预设收敛条件;步骤S11,如果所述当前迭代次数达到预设收敛条件,则得到训练好的A3C模型;步骤S12,如果所述当前迭代次数没有达到预设收敛条件,则返回执行步骤S3;
基于所述当前小小区中各内容的缓存策略,对当前小小区中的内容进行缓存。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个小小区中所有内容的请求次数,计算每一内容对应的第一内容流行度和第二内容流行度,得到内容流行度特征矩阵的步骤,包括:
针对所述多个小小区中所有内容中的每一内容,计算该内容在所述多个小小区中的请求次数,与所述所有内容在所述多个小小区中的请求次数的第一比值,并将所述第一比值作为该内容对应的第一内容流行度;
将所述每一内容对应的第一内容流行度,构成第一内容流行度特征向量;
针对所述多个小小区中所有内容中的每一内容,计算该内容在当前小小区中的请求次数,与所述所有内容在当前小小区中的请求次数的第二比值,并将所述第二比值作为该内容对应的第二内容流行度;
将所述每一内容对应的第二内容流行度,构成第二内容流行度特征向量;
将所述第一内容流行度特征向量与所述第二内容流行度特征向量,构成所述内容流行度特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010238321.0/1.html,转载请声明来源钻瓜专利网。