[发明专利]车载内容中心网络下基于联邦学习的边缘预缓存策略在审
申请号: | 202110149492.0 | 申请日: | 2021-02-03 |
公开(公告)号: | CN113158544A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 姚琳;李兆洋;吴国伟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N20/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车载 内容 中心 网络 基于 联邦 学习 边缘 缓存 策略 | ||
1.一种车载内容中心网络下基于联邦学习的边缘预缓存策略,其特征在于,步骤如下:
(1)首先在车载网的动态环境下采集内容请求的数据和对应车辆移动信息,对部署在RSU上的深度增强学习智能体进行训练,在给定条件下做出最有利于降低请求时延的决策;DRL智能体的训练过程首先需要对状态空间、动作空间和回报函数进行定义:
(1.1)状态空间主要由两部分组成,一部分是车辆的移动状态,一部分是内容的请求概率;其中车辆的移动状态包含当前车辆当前的位置和一个时间片后可能到达的位置;当前的位置是容易获得的,但可能到达的位置并不能准确预测,因此采用马尔可夫链根据车辆的历史路径对车辆可能到达的位置进行预测,并将预测结果作为状态空间的组成部分;内容的请求概率也分为两类,一类是内容的流行度,另一类是基于车辆当前请求的内容预测的下一个可能请求的内容;
(1.2)为了避免动作空间过于膨胀,DRL智能体被限制一次只能选择一个内容预存入缓存当中,再把这个选择重复多次以达到将高优先级的内容都存入缓存;为了进一步提高效率,根据内容流行度进一步缩小可选内容的范围,只有流行度高于阈值的内容才能作为预缓存的对象;
(1.3)用缓存命中率来表征DRL智能体的工作效率,为了兼顾短期收益与长期收益,回报函数通过指数加权平均命中率表示:
其中,ri表示从当前开始往后第i个时间片的命中率,w∈(0,1)为指数加权因子,w越大,则回报函数随时间衰减的收益越少;
(2)在定义了状态空间、动作空间和回报函数之后,就可构建智能体的深度学习框架并进行训练;本方法采用的深度强化学习框架由以下几部分组成:
(2.1)actor网络定义为一个参数为θμ的函数,是一个由状态空间到动作空间的映射;给定一个状态空间的状态,actor网络根据自身的参数计算出对应的一个动作空间中的原始动作作为输出;
(2.2)采用K-最近邻的方法将生成的动作扩展为一组动作,即一个动作空间中有效动作的集合,其中的每一个元素都可能作为将要执行的动作;
(2.3)为了避免选取到低Q值的动作,还需要定义一个critic网络对actor网络的输出进行限制,并更新actor网络的参数;其确定性目标策略如下:
其中,st表示t时刻的状态,at表示t时刻采取的动作,θQ和θμ分别表示critic网络和actor网络的参数,表示在环境E的条件下方括号内数值的期望,r(st,at)表示在状态st下采取动作at带来的回报,γ∈(0,1]为未来累积回报的权重衰减系数,μ(st+1|θμ)表示基于actor网络和t+1时刻的状态得到的动作;对于上一步生成的动作集合中的每一个可能的动作,critic网络根据当前的状态和下一个状态计算对应的Q值,其中取得最大值的动作将被选为执行动作;
随后通过最小化损失函数对critic网络进行更新,损失函数的定义为:
其中yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),i表示选取的第i条记录,Q′及μ′代表这条记录对应的状态转移发生之前的critic和actor网络;
利用采样策略梯度对actor网络的参数进行更新:
即根据链式法则对actor网络的参数θμ求梯度,其中为critic网络对状态si条件下采取的动作a=μ(si)求梯度,为actor网络对参数θμ求梯度;
(3)本方法采用联邦学习的架构,由各个RSU分别在本地采集数据并对给定的网络进行训练,而后定期上传模型参数至远程服务器;远程服务器进行联邦平均,得到更新后的模型参数并重新下发给各RSU;联邦学习的流程如下:
(3.1)首先远程服务器初始化一个深度增强学习智能体的模型,为当前actor网络和critic网络赋予随机的参数初值;随后远程服务器将这个模型分发给区域内各个RSU;
(3.2)RSU在接收到模型后开始进行模型训练,训练过程同步骤(2),如果有可供采用的历史数据,处理后用于模型训练,同时接收到模型之后系统运行中获得的新数据对模型进一步更新;
(3.3)经过一段时间的训练之后,各个RSU将自己训练过的模型回传到远程服务器,由远程服务器进行联邦平均,考虑到不同的RSU所处位置不同,因此车流量也其具体计算方式如下:
其中,θt+1表示迭代一轮之后的网络参数,K为参与联邦学习的RSU总数,n为本次迭代的单独训练期间各RSU接收到的总的请求数,nk则为第k个RSU接收到的请求数,表示第k个RSU训练后的参数。整个过程循环进行,直至模型参数保持稳定;
(3.4)远程服务器将训练后的模型重新分发给各RSU,各RSU用统一的智能体指导缓存操作;
(4)步骤(1)中提到DRL智能体一次只选择一个内容进行预缓存,然后通过多次重复将多个可能的内容进行预缓存;因此实际上一个预缓存内容即对应一个动作的Q值;在此基础上,为了降低多个临近RSU存储相同内容造成的空间浪费,每个RSU在计算各个动作的Q值时,首先与临近RSU交换自己的缓存列表,如果一个内容存在于多个临近RSU,则额外降低该动作的优先级,具体计算方式为:其中nd为临近RSU中该内容存在的个数;RSU根据调整后的Q值重新对各个内容进行排序,然后依次将符合条件的内容预缓存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110149492.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动铆合机
- 下一篇:系列木脂素类化合物、药物组合物、制备方法及应用
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法