[发明专利]一种基于深度强化学习的多车应用计算卸载方法及终端有效

申请号：	202111019147.1	申请日：	2021-09-01
公开（公告）号：	CN113726894B	公开（公告）日：	2023-05-05
发明（设计）人：	林兵;林凯;卢宇;黄志高	申请（专利权）人：	福建师范大学
主分类号：	H04L67/1001	分类号：	H04L67/1001;H04L67/12;G06F9/445;G06N3/04;G06N3/092
代理公司：	福州市博深专利事务所(普通合伙) 35214	代理人：	唐燕玲
地址：	350000 福建省***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习应用计算卸载方法终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的多车应用计算卸载方法，其特征在于，包括：

基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络；

根据所述车辆边缘计算网络确定计算卸载问题，并根据所述计算卸载问题建立马尔科夫决策过程模型；

基于所述马尔科夫决策过程模型使用结合模拟退火的多智能体深度确定性策略梯度算法确定卸载策略，并执行所述卸载策略；

每一所述DNN应用包括多个DNN层；

所述基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络包括：

确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用；

根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型；

根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列；

根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型；

根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型；

根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络；

所述根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型包括：

定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子；

获取所述多个智能网联汽车的传输功率以及所述多个路边单位的通信范围；

基于所述多个智能网联汽车、所述多个路边单位、所述信道带宽、所述信道衰落因子、所述高斯白噪声功率、所述路径损耗因子、所述传输功率以及所述通信范围构建所述多个智能网联汽车与所述多个路边单位的通信模型；

所述通信模型为：

；

式中，表示在第k个时间片，第i个智能网联汽车与第j个路边单位的数据传输率，B表示信道带宽，h表示信道衰落因子，p_tr表示所述多个智能网联汽车的传输功率，x表示所述高斯白噪声功率，表示所述路径损耗因子，表示第i个智能网联汽车与第j个路边单位的距离，r表示所述多个路边单位的通信范围；

所述根据所述车辆边缘计算网络确定计算卸载问题包括：

所述计算卸载问题为：

；

式中，Minimize表示最小化，AFR表示所述多个智能网联汽车的平均卸载失败率，FR_i表示第i个智能网联汽车的卸载失败率，n表示所述多个智能网联汽车的数量；

所述根据所述计算卸载问题建立马尔科夫决策过程模型包括：

获取目标时间片内目标智能网联汽车对应的状态s_i（k）以及对应的动作a_i（k）；

根据所述目标智能网联汽车对应的状态确定所述多个智能网联汽车的联合状态S（k）；

根据所述目标智能网联汽车对应的动作确定所述多个智能网联汽车的联合动作A（k）；

获取目标时间片内目标智能网联汽车对应的卸载失败应用集合以及卸载成功应用集合；

根据所述卸载失败应用集合以及卸载成功应用集合确定目标智能网联汽车的奖励函数r_i（k）；

根据所述目标智能网联汽车的奖励函数确定所述多个智能网联汽车的联合奖励R（k）；

根据所述联合状态、所述联合动作、所述联合奖励生成马尔科夫决策过程模型；

所述s_i（k）为：

；

式中，k表示第k个时间片，表示所述目标智能网联汽车的二维坐标，表示所述智能网联汽车与所述路边单位在通信范围内的数据传输率；

所述S（k）为：

；

所述a_i（k）为：

；

式中，{1，2，…，m}表示所述目标智能网联汽车选择卸载所述DNN层至第j个路边单位，m+1表示所述目标智能网联汽车本地处理所述DNN层；

所述A（k）为：

；

所述为：

；

所述为：

；

所述r_i（k）为：

；

所述R（k）为：

；

所述基于所述马尔科夫决策过程模型使用结合模拟退火的多智能体深度确定性策略梯度算法确定卸载策略，并执行所述卸载策略包括：

设计与所述智能网联汽车对应的动作者网络；

设计与所述动作者网络对应的评论家网络；

将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作，根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作，并执行所述目标动作对应的卸载策略，返回与所述卸载策略对应的奖励和新状态；

根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程，并将所述状态转移过程保存至回放记忆库；

将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值；

根据Q值更新所述动作者网络及所述评论家网络；

所述基于所述马尔科夫决策过程模型使用结合模拟退火的多智能体深度确定性策略梯度算法确定卸载策略，并执行所述卸载策略还包括：设计与所述动作者网络对应的目标动作者网络，并设计与所述评论家网络对应的目标评论家网络；

所述动作者网络包括第一网络参数；

所述目标动作者网络包括第一目标网络参数；

所述评论家网络包括第二网络参数；

所述目标评论家网络包括第二目标网络参数；

所述基于所述马尔科夫决策过程模型使用结合模拟退火的多智能体深度确定性策略梯度算法确定卸载策略，并执行所述卸载策略之后包括：

按照预设周期从所述回放记忆库中任意采集多个状态转移过程；

其中，s_i^j表示采集的多个智能网联汽车的状态，a_i^j表示采集的多个智能网联汽车的目标动作，r_i^j表示采集的多个智能网联汽车的奖励，s_i^’j表示采集的多个智能网联汽车的新状态；

合并所述多个状态转移过程，得到合并后的状态转移过程；

其中，S_i^j表示采集的多个智能网联汽车的合并状态，A_i^j表示采集的多个智能网联汽车的目标合并动作，R_i^j表示采集的多个智能网联汽车的合并奖励，S_i^’j表示采集的多个智能网联汽车的新合并状态；

基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值y_i^j；

；

式中，Q_i^’（）表示所述目标评论家网络，π_i^’（）表示所述目标动作者网络，表示折扣率；

基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分误差；

；

式中，Q_i（）表示所述评论家网络；

根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L（）：

；

式中，x表示采集的多个状态转移过程的数量；

采用最小化损失函数方法对所述第二网络参数进行更新；

采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新；

所述策略梯度方法为：

；

式中，表示所述第一网络参数的损失函数的梯度，π_i（）表示所述动作者网络，表示对函数求梯度的操作；

采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新；

所述软替换方法为：

θ_i^’’=v·θ_i+（1-v）·θ_i^’；

ω_i^’’=v·ω_i+（1-v）·ω_i^’；

式中，θ_i^’’表示更新后的所述第一目标网络参数，θ_i表示所述第一网络参数，θ_i^’表示所述第一目标网络参数，ω_i^’’表示更新后的所述第二目标网络参数，ω_i表示所述第二网络参数，ω_i^’表示所述第二目标网络参数，v表示软替换速率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111019147.1/1.html，转载请声明来源钻瓜专利网。

上一篇：显示装置及其制造方法
下一篇：一种便于校准芯具中心的空心耐火砖成型设备

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的多车应用计算卸载方法及终端有效

专利文献下载