[发明专利]一种车联网中车边协同的任务卸载调度及资源分配方法有效

申请号：	202110415530.2	申请日：	2021-04-18
公开（公告）号：	CN113132943B	公开（公告）日：	2022-04-19
发明（设计）人：	邝祝芳;高坚;黎松	申请（专利权）人：	中南林业科技大学
主分类号：	H04W4/40	分类号：	H04W4/40;H04W16/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	410004 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种联网中车边协同任务卸载调度资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种车联网中车边协同的任务卸载调度及资源分配方法，包括以下步骤：

步骤1：构造车联网中车边协同计算网络的数学模型P1；

步骤2：给定任务执行CPU频率(f_i^l*,f_i^r*)，f_i^l*表示任务i在本地计算的CPU频率，f_i^r*表示任务i在边缘服务器计算的CPU频率，构造数学模型P2，基于深度强化学习DQN算法求解问题P2，求得卸载和调度决策(x_i,α_i)，得出目标值V；

步骤3：根据步骤2求得的卸载和调度决策(x_i,α_i)，构造数学模型P3，使用梯度下降法GD，求解I个任务的CPU频率，得出目标值V’；

步骤4：计算目标值V和V′的差值，如果差值小于阈值χ，即V-V'＜χ，则循环迭代结束，否则跳转至步骤2；

步骤1中构造车联网中车边协同计算网络的数学模型P1的步骤如下：

每个任务可以在本地或者边缘服务器上进行计算,α_i∈{0,1}表示任务i的卸载决策，α_i＝0表示任务i在车辆本地计算，α_i＝1表示任务i在边缘服务器计算，x_i∈{1,...,i,...I}表示任务的调度顺序，第几个被调度执行，用集合α＝{α₁,α₂,...,α_I}表示系统中所有任务的卸载决策，集合X＝{x₁,x₂,...,x_I}表示系统中所有任务的调度顺序，每个任务仅能采用一种卸载决策，一种调度决策来计算任务，用集合Y＝{y₁,...,y_p,...,y_NS}表示边缘服务器执行任务的顺序，NS表示在边缘服务器执行任务的数量，y_p表示第p个在边缘服务器执行的任务，用集合Z＝{z₁,...,z_q,...,z_NL}表示在车辆端(本地)执行任务的顺序，NL表示在车辆端执行任务的数量，z_q表示第q个在车辆端(本地)执行的任务，

由于不同区域具有不同的频谱效率，可以得到在区域k，任务从车辆上传到边缘服务器的数据传输速率v^k为：

v^k＝b*r_k (1)

其中b为车辆到边缘服务器的信道带宽，单位为Hz，r_k为区域k的频谱效率，单位为bit/s/hz；

车辆的任务i在本地执行的完成时刻表示为T_i^l，公式如下：

其中，c_i为任务i所需的CPU周期，f_i^l表示车辆分配给任务i的CPU计算频率，z_q表示本地执行任务集合中最近一个被执行的任务；

车辆的任务i在边缘服务器计算完成的时刻表示为T_i^r，对于边缘服务器计算，首先通过无线链路将任务卸载到边缘服务器，然后边缘服务器执行计算任务，任务的时间消耗包括两部分:任务传输时间和边缘服务器上的计算时间，任务在边缘执行必须满足以下两个条件:首先，任务输入数据在边缘服务器上准备好，其次，边缘服务器上的CPU可用于执行新上传的任务，T_i^tran表示任务i传到边缘服务器的传输时间，T_i^tran如下式所示:

其中表示任务i在区域k上传的数据量大小，v^k表示区域k的数据传输速率，任务需要传输到边缘服务器进行计算时，车在不断移动，任务可能在单个区域内无法传输完成，因此，在上传任务时，需要根据车辆的速度及位置，将任务分为多部分进行上传，且如果不需要在区域k计算，则该任务在区域k区域的上传数据量大小为0；

表示任务i的准备时间，如下所示：

其中，y_p表示最近一个被上传到边缘服务器执行任务集合中的任务，集合Y中所有任务传输到边缘服务器的时间总和，再加上任务i的传输时间即为任务i的准备时间；

根据(3)(4)两式，可以得到任务i在边缘服务器计算的完成时刻T_i^r如下：

其中表示最近一个在边缘服务器执行的任务y_p在边缘服务器计算的完成时刻，表示任务i在边缘服务器的计算时间；当p＝0时，表示任务i是边缘服务器接收的第一个任务，因此任务i的传输时间就是准备时间，任务i的传输时间和计算时间相加就是任务i的完成时刻；当p0时，表示在任务i之前已经有任务在边缘服务器上进行计算，比较任务i的准备时间，和边缘服务器最近一个被执行的任务的完成时刻，取两个中的最大值，然后加上任务i计算时间就是任务i的完成时刻；

任务i在本地的执行能耗表示为公式如下：

其中，ε是能量消耗系数，f_i^l为任务i在本地计算的CPU频率

任务i在边缘服务器的执行能耗表示为公式如下：

其中，f_i^r为任务i在边缘服务器计算的CPU频率，p_l表示任务i传输到边缘服务器的上传功率；

定义数学模型P1，在满足约束条件的情况下，最小化系统内所有任务的最终完成时刻和最小化能量消耗，如下所示：

式(8)是目标函数，其中和分别表示当前选择第i个任务后，本地和边缘任务集合中最后一个任务的完成时刻，ω表示加权系数，α_i表示卸载决策，表示任务i在本地或者边缘服务器计算；

式(9)表示卸载决策约束，任务i只能在本地或者卸载到边缘服务器执行；

式(10)表示任务i在本地或边缘服务器的完成时刻不应超过最大完成时刻；

式(11)表示任务i在本地或边缘服务器的能量消耗不应超过最大能耗约束；

式(12)表示任务i在本地的执行频率不应超过本地的最大执行频率；

式(13)表示任务i在边缘服务器的执行频率不应超过边缘服务器的最大执行频率；

式(14)表示任务的调度顺序不能重合；

步骤2在给定任务执行CPU频率(f_i^l*,f_i^r*)，构造数学模型P2，基于深度强化学习DQN算法求解问题P2，求得卸载和调度决策(x_i,α_i)，得出目标值V，步骤如下：

S2-1构造给定CPU频率情况下的数学模型，在给定CPU频率(f_i^l*,f_i^r*)情况下，优化所有任务的卸载决策和调度决策，采用DQN算法进行求解，求解任务的卸载决策和调度决策的目标与问题P1一致，为最小化所有任务的能量消耗和执行时间的加权和，优化问题的数学模型P2可写成如下所示：

其中(15)为目标函数，(16)-(19)为约束条件，(α_i,x_i)是优化变量，α_i是卸载决策，表示任务i是否本地或者边缘服务器执行，x_i是调度决策，表示任务i在第x_i个进行调度；

S2-2基于深度强化学习DQN算法的卸载决策和缓存决策的三个关键要素定义，深度强化学习方法中有三个关键要素，即状态、动作、奖励，具体定义如下：

(1)系统状态S：用S表示系统状态，S＝{S_l,S_r,φ_l}表示环境的状态空间，其中S_l表示车辆当前的计算队列，S_r表示边缘服务器当前的计算队列，φ_l表示车辆的当前位置；

(2)系统动作A：用A表示系统动作，系统动作包括卸载决策和调度决策，用A＝{α,X}表示，其中卸载决策α＝{α₁,α₂,...,α_I}，α_i∈{0,1}，α_i表示任务i在本地或者边缘服务器执行，调度决策X＝{x₁,x₂,...,x_I}，x_i∈{1,2,...,I}，x_i表示任务i在第几个进行调度；

(3)系统奖励R：每一步，agent在执行完每一个可能的动作后，都会得到一个奖励R，在某一个可能的动作选了任务i后，得到回报是成本的负数，回报越大，成本越低，如果执行的动作不满足约束条件，则R＝-P，P是远比R大的惩罚数；

S2-3基于深度强化学习DQN算法，求解所有用户的任务的卸载决策和调度决策，为了解决大空间问题，DQN使用深度神经网络来估计动作价值函数该函数值可视为累计奖励，Q(S,A)可设为:

Q(S,A)＝R+βmax_A'Q(S',A') (20)

其中S',A'表示下一个状态和动作，β为衰减因子，下一时刻的Q值可更新为：

Q(S,A)←Q(S,A)+γ(R'+βmax_A'Q(S',A')-Q(S,A)) (21)

初始化经验池容量为memory_size＝1000组，初始化评估Q网络，随机生成网络参数θ；初始化目标Q网络，网络参数θ_-＝θ，初始化训练轮数episode＝1，每轮训练步数t＝1，训练最大轮数为episode_max，每轮到达终止状态的步数为Γ，经验池采样前的元组存储条数φ，评估网络与目标网络参数同步的步数整个神经网络的总步数STEP＝episode_max×Γ，初始step＝1，

①初始化episode＝1，t＝1，step＝1，

②取状态S_t，

③将S_t输入DQN神经网络中，以ε的概率来选择最大Q值对应的动作，可得到否则随机选择动作A_t，计算A_t对应的奖励R_t，以及对应的下一步状态S_t+1，

④将(S_t,A_t,R_t,S_t+1)存储进经验池中，经验池的大小有限，当数据记录满了之后，下一个数据会覆盖经验回放中的第一个数据，

⑤若step＞φ，进行⑥，否则，跳到⑦，

⑥随机从经验池中选择一组数据(S_j,A_j,R_j,S_j+1)，将S_j输入评估Q网络中，得到估计值Q_θ(S_j,A_j)；将S_j+1输入目标Q网络中，得到Q_θ-(S_j+1,A_j+1)，则目标Q网络的Q值为计算Q_θ(S_j,A_j)与Q_θ-^*(S_j,A_j)之间的误差，使用梯度下降法更新评估Q网络的参数θ，使用均方误差(mean-squared error,MSE)来定义损失函数：