[发明专利]一种车联网中的智能资源分配方法有效
| 申请号: | 201910448363.4 | 申请日: | 2019-05-28 |
| 公开(公告)号: | CN110213796B | 公开(公告)日: | 2021-08-06 |
| 发明(设计)人: | 宁兆龙;张凯源;王小洁;董沛然;孙守铭 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | H04W28/02 | 分类号: | H04W28/02;H04W28/16;H04L29/08;G06N3/04 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种车联网中的智能资源分配方法,将人工智能算法应用于解决车辆网中的资源分配问题,从而最大化网络运营商的收益。具体地,建立基站——路边节点联合车辆边缘计算和缓存资源调度框架为车辆分配请求的资源;结合运营商收入和用户体验质量建立网络运营商收益函数评估资源分配问题,建立联合优化问题最大化网络运营商收益;通过深度强化学习求解上述联合优化问题,得到智能化的任务调度和资源分配方案,并将得到的方案布置在智能化控制系统中,对车辆请求和服务器资源进行智能化的调度和安排。本发明的车联网中的智能资源分配方法能够在考虑用户体验的同时,最大化网络运营商收益,为人工智能在实际化应用提供了一个新的思路和角度。 | ||
| 搜索关键词: | 一种 联网 中的 智能 资源 分配 方法 | ||
【主权项】:
1.一种车联网中的智能资源分配方法,其特征在于,包括以下步骤:步骤1:建立基站——路边节点联合车辆边缘计算和缓存资源调度框架,所述框架包含移动的车辆、装备有智能边缘服务器的基站和多个路边节点,所述框架具有车辆——服务器通信模型、车辆——服务器计算模型和车辆——服务器缓存模型,其中:所述车辆——服务器通信模型:当车辆行驶在路边节点的覆盖范围内时,车辆和路边节点的服务器之间建立稳定的信道进行数据传输,设Tij为车辆i在路边节点的服务器j的覆盖范围内停留的时间,在此时间内车辆环境和传输参数不变,车辆需要同时进行计算任务的分载和请求资源的下载,车辆和服务器之间信道的带宽包括计算所需带宽和缓存下载带宽,即
其中
是时间段t内车辆计算所需带宽,
是时间段t内车辆下载所需资源占用的带宽,当车辆用户需要下载或者上传数据,服务器会给连接安排正交频分复用信道,基于香农理论,车辆i和路边节点的服务器j之间的数据传输速率为:
其中,
是服务器j为车辆i分配的频谱带宽,
为服务器j和车辆i之间在时间段t的信噪比;所述车辆——服务器计算模型:车辆向网络运营商发送计算任务请求,网络运营商决定分配服务器空闲计算资源给车辆以保证车辆能够在其可接受时延范围内完成计算,基站可覆盖到智能交通系统内的任一车辆,基站和离车辆最近的路边节点将采用合作的方式对任务进行共同计算,设车辆i在时间段t内完成计算任务大小为
t的长度表示为|t|,其中
在路边节点上计算,
在基站上计算;计算任务所需的CPU周期为
计算任务大小为
t时间段路边节点和基站分别为车辆i分配的CPU资源fij(t)、fi0(t)分别为:![]()
为了保证计算任务的分载,运营商需要分配足够的带宽保证计算任务的上传,则路边节点和基站分别为车辆i分配的用于计算任务的带宽
分别为:![]()
![]()
表示服务器j与车辆i之间在时间段t内用于传输计算任务的信道的信噪比,
表示基站与车辆i之间在时间段t内用于传输计算任务的信道的信噪比;所述车辆——服务器缓存模型:车辆需要下载任务包括两部分相关信息,请求下载内容的总大小ci和请求下载内容的流行程度pi;设车辆i在时间段t内请求下载内容大小为
t的长度表示为|t|,其中
在路边节点上下载,
在基站上下载;则t时间段路边节点和基站分别为车辆i分配的缓存资源gij(t)、gi0(t)分别为:![]()
则路边节点和基站分别为车辆i分配的用于下载缓存任务的带宽
分别为:![]()
![]()
表示服务器j与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比,
表示基站与车辆i之间在时间段t内用于传输下载缓存的信道的信噪比;并且当车辆接到了所有的内容片段,车辆可将这些片段组合成其所需的下载内容;并且因为缓存内容大小有限,同一个服务器不能缓存全部车辆所需下载的内容;步骤2:基于步骤1)中的建立的框架,实例化联合优化目标优化函数,作为所述智能资源分配方法的基础;2.1)综合网络运营商对于计算服务和缓存服务的收入以及用户的QoE质量建立运营商收益函数,所述运营商收益函数包括:服务收入、计算任务开销、缓存任务开销、用户QoE惩罚,其中:所述服务收入为网络运营商向服务请求用户收取的费用,设用户每需要完成1GB的计算任务需要向网络运营商支付α,完成1GB的下载任务需要向网络运营商支付β,则在时间段t中的服务收入为:
其中V是经过智能交通系统的车辆集合,M是智能交通系统中的服务器集合,包括基站的服务器和路边节点的服务器;所述计算任务开销为网络运营商完成车辆用户计算任务的开销,其包括通信开销和CPU计算开销,所述通信开销包括请求数据传输信道带宽的开销和车辆接入服务器虚拟网络的信道开销,时间段t内的总计算任务开销为:
其中δR和δ0分别为路边节点和基站的带宽开销,νR和ν0分别为路边节点和基站接入虚拟网络的开销,ηR和η0表示路边节点和基站完成一个CPU周期的能量消耗,ωR和ω0表示路边节点和基站的计算资源消耗;时间段t内的缓存任务开销包括通信开销和缓存开销,其中通信开销的计算方法与所述计算任务开销中的通信开销相同,缓存开销为使用服务器缓存所需支付的开销,时间段t内的总缓存任务开销为:
其中
和
分别表示路边节点和基站的缓存开销;用户QoE惩罚涉及智能交通系统对用户的服务体验评价,用户QoE惩罚:
其中σca和σcp分别是请求任务和计算任务的惩罚系数,Ti为车辆i通过智能交通系统覆盖区域的时间;如果当前的资源分配方案不能够在车辆离开前完成计算或下载缓存任务,惩罚项σ(i,Ti)将是负数;反之,惩罚项σ(i,Ti)将等于0;综合上述四项,运营商收益PMNO为:
2.2)联合考虑计算分载、边缘缓存和带宽资源分配,目标优化函数为:![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
其中,Bj、Fj、Gj分别表示服务器j的带宽、计算资源和缓存资源大小;C1、C3和C5是对分配给车辆用户的带宽、计算资源和缓存资源大小分别进行限制;C2、C4和C6保证了分配给车辆用户的带宽、计算资源和缓存资源总和不能超过服务器所能提供的最大值;C7保证了服务器为车辆i提供的缓存资源不能超过车辆的需要;C8保证了服务器为车辆i提供的计算资源不能超过车辆的计算需要;步骤3:在智能交通系统中具有智能化控制系统,该智能化控制系统接收车辆和服务器的状态作为当前的环境信息,包括车辆的移动信息、车辆计算任务和内容下载的相关信息以及服务器可用资源的相关信息;在得到上述环境信息后,形成深度强化学习中的三要素:状态、动作和奖励,其中:所述状态为车辆和服务器的状态:在时间段t内的智能交通系统的状态空间为st={Di(t),Fj(t),Gj(t),Bj(t)},其中Di(t)为车辆用户的状态集合,包括车辆的移动速度、车辆的所在位置、下载内容的流行程度、所需下载内容的大小、所需计算内容的大小、请求缓存资源大小、请求计算资源大小、计算任务所需的CPU周期数;Fj(t)、Gj(t)和Bj(t)分别为服务器的可用计算资源、可用缓存资源和可用带宽;所述动作决定一个服务器为车辆分配资源以及为车辆分配资源的量,智能化控制系统接收到不同的请求后派遣不同的服务器资源给车辆用户进行任务的计算和内容的下载,在时间段t内智能交通系统的动作空间为at={fij(t),gij(t),bij(t)},其中fij(t)、gij(t)和bij(t)分别表示服务器j为车辆i分配的计算资源、缓存资源和带宽的大小,fij(t)、gij(t)和bij(t)都是连续变量从而保证智能交通系统中的资源准确分配;基于当前的状态和智能化控制系统采取的动作,智能化控制系统将获得一个奖励值,所述奖励值与目标优化函数相关,采用P(t)=Rrev(t)‑Cca(t)‑Ccp(t)作为智能交通系统的奖励函数,目标优化函数是奖励函数的累计值;步骤4:基于步骤3)得到的状态空间、动作空间和奖励函数,进行基于深度强化学习算法的智能任务安排和资源调度,深度强化学习算法为DDPG算法,其中包含“演员”网络和“评价”网络,每一个网络中包含在线深度神经网络和目标深度神经网络,深度强化学习算法还包含经验重放池,用于储存训练数据,进行该深度强化学习算法的深度强化学习智能体布置在智能化控制系统中,控制着智能交通系统中所有的服务器和车辆,以决定每个时间段的动作并将此动作发送给车辆和对应的服务器;4.1)智能化控制系统将收集得到的状态空间以元组的形式发送给“演员”网络,“演员”网络根据当前的动作策略Ω选择出当前的动作:at=Ω(t)=μ(st,θμ)+Nt其中μ为由卷积神经网络模拟出的当前在线策略,Nt为随机噪声,θμ为“演员‑在线”深度神经网络的参数;4.2)状态空间根据步骤4.1)产生的动作进行更新得到新的状态st+1,车辆将计算任务分载,将缓存任务从服务器上部分下载,同时服务器分配计算、缓存资源以及带宽给车辆;根据状态空间和动作空间计算t时间段的奖励值Rt,“演员”网络将转换元组储存在经验重放池中做训练集更新“演员‑在线”深度神经网络;同时“演员‑目标”深度神经网络根据得到的新的状态st+1,利用卷积神经网络模拟出目标动作a′t:a′t=μ′(st+1,θμ′)+Nt其中μ′为由“演员‑目标”深度神经网络模拟出的目标在线策略,Nt为随机噪声,θμ′为“演员‑目标”深度神经网络的参数;4.3)采用Q值评估当前在线策略μ,以表示在状态st下,采取动作at且一直采取当前在线策略μ的情况下所获得的奖励期望值,利用“评价”网络通过贝尔曼等式计算Q值,公式如下:Qμ(st,at,θμ)=E[r(st,at)+γQμ(st+1,μ(st+1,θQ),θμ)]其中r(st,at)为计算奖励值Rt的函数,γ为衰减系数,θQ为“评价‑在线”深度神经网络的参数;“评价‑在线”深度神经网络通过在经验重放池中取样带入Qμ(st,at,θμ)训练卷积神经网络从而求出Q值;“评价‑目标”深度神经网络计算目标值来对“评价‑在线”深度神经网络进行训练和参数更新,目标值的计算方法如下:yt=r(st,at)+γQμ′(st+1,μ′(st+1,θμ′),θQ′)其中γ为衰减系数,θQ′表示“评价‑目标”深度神经网络的参数,Qμ′表示利用“评价‑目标”深度神经网络求解在状态st+1下采用策略μ′情况下的Q值;通过最小化均方差损失函数的方法计算出最优的θQ值,其均方差损失函数定义如下:
其中N表示从经验重放池中取样的数量,Qμ表示利用“评价‑在线”深度神经网络求解在状态st下采取动作at且一直采取策略μ的情况下的Q值;4.4)基于步骤4.3)中求解的最优θQ值以及从经验重放池中取出的训练数据,采用函数J(μ)来衡量策略μ的表现,通过最大化J(μ)来寻找最优策略;采用蒙特‑卡洛法求解函数J(μ)策略梯度:
其中▽表示函数的梯度,N表示训练数据的数量;利用软更新的方法使用“评价‑在线”深度神经网络的参数和“演员‑在线”深度神经网络的参数分别更新“评价‑目标”深度神经网络的参数和“演员‑目标”深度神经网络的参数:θQ′←τθQ+(1‑τ)θQ′θμ←τθμ+(1‑τ)θμ′其中τ更新系数,取0.001;4.5)目标优化函数是智能化控制系统中的奖励函数的累计值,累计值在进行网络训练时收敛,则得到目标优化函数的最优解,即最优的任务安排和计算资源方案以最大化运营商收益;步骤5:在得到步骤4)中的最优解后,智能化控制系统向车辆和服务器发送信号,进行相应的计算分载和缓存下载,并将得到的累计值作为运营商的最大收益。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910448363.4/,转载请声明来源钻瓜专利网。





