[发明专利]一种基于多智能体深度强化学习的协作充电规划方法在审
| 申请号: | 202211462417.0 | 申请日: | 2022-11-21 | 
| 公开(公告)号: | CN115907377A | 公开(公告)日: | 2023-04-04 | 
| 发明(设计)人: | 冯勇;王蜀蒙;李英娜;张晶;付晓东 | 申请(专利权)人: | 昆明理工大学 | 
| 主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q50/06;G06F18/241;G06N3/04;G06N3/084 | 
| 代理公司: | 昆明明润知识产权代理事务所(普通合伙) 53215 | 代理人: | 马海红 | 
| 地址: | 650093 云*** | 国省代码: | 云南;53 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 深度 强化 学习 协作 充电 规划 方法 | ||
1.一种基于多智能体深度强化学习的协作充电规划方法,其特征在于,包括如下步骤:
步骤1:构建一个多移动充电器MC无线可充电传感器网络WRSN的场景;
步骤2:以最大化能源利用率和最小化死亡节点数为目标,建立优化问题;
步骤3:构建基于多智能体深度强化学习的协同充电规划算法;
步骤4:在基于多智能体深度强化学习的协同充电规划算法的训练过程中,使用WRSN历史数据对算法进行线下训练,获得求解多MC协作调度问题的训练好的深度强化学习模型;
步骤5:在基于多智能体深度强化学习的协同充电规划算法的执行过程中,将WRSN状态信息输入到训练好的深度强化学习模型中,通过模型计算得到MC的充电动作值。
2.根据权利要求1所述的基于多智能体深度强化学习的协作充电规划方法,其特征在于,所述步骤1中,构建一个多移动充电器无线可充电传感器网络的模型的具体步骤包括:
WRSN部署在确定的二维监测区域内,包括:n个相同的传感器节点;1个基站BS;1个服务站SS;m个相同的MC,WRSN从被部署开始到全部节点死亡的时间称为生命周期,WRSN生命周期被划分为若干个相同的时隙t,时隙t的持续时间较短且不可分割;
传感器节点随机分布于监测区域内,位置固定,{si}表示节点集合,其中i表示节点序号,1≤i≤n;表示si的二维坐标;Es表示节点的总能量;表示节点si在时隙t的剩余能量;pi(t)表示节点在时隙t的瞬时能量消耗率,表示节点从网络生命周期开始到当前时隙t的平均能量消耗率,初始时刻开始,全部节点都收集数据并通过多跳转发的方式将数据传输到基站,由于传感器节点周围事件发生和传感器节点突发数据流的不可预测性,传感器节点的能量消耗率是动态变化的,每个时隙t传感器的剩余能量更新一次,公式如下:
每个时隙t传感器的平均能量消耗率更新一次,公式如下:
hs表示节点的阈值,每个时隙t所有的节点将通过多跳转发的方式向基站发送其状态信息如下式:
当节点能量耗尽时,节点将进入休眠,无法为网络提供任何服务;
MC是具有自主移动能力的设备,可以在WRSN的部署区域自由移动,MC可以获取自身的实时定位,{mj}表示MC构成的集合,其中j表示MC的序号,1≤j≤m;表示MCj的二维坐标,MC的能量总容量为Em,MC移动速度为v,移动能耗为qm,充电功率表示为qc,充电效率表示为η,MC分为空闲MC和占用MC,在每个时隙t空闲MC通过远距离实时通信接收来自基站的充电目标节点,并前往进行一对一充电;而占用MC继续完成其充电任务,MC一次充电任务耗时若干个时隙,将其定义为MCj的一个时间步,表示为其中t表示时间步的序号,即的开始时隙t;j表示MC的id;时隙t时MCj接收充电任务并开始执行,由于每个传感器节点不均匀分散分布且充电所需的时间不同,多MC需执行异步充电,即不同MC的时间步含有不同个数的时隙且时间步开始和结束于不同时隙,MC可通过基站获取发送了充电请求的节点最近一次更新的在t时隙的状态信息在每个时隙t,全部MC向基站发送一条自身的状态信息,表示为:
其中表示时隙tMCj的位置,表示MCj正在前往或正在充电的节点的位置,Δt表示在MCj完成当前充电任务的预计剩余时间,若MC处于空闲状态,则且Δt=0;
服务站具有足够能量为MC进行无线充电,hm表示MC的阈值,在每完成一次充电任务后若MCi的能量小于hm,则MC需要返回服务站补充能量,在此期间不能进行充电任务;
基站维护低能量节点和全部MC的状态信息在每个时隙t,能量低于hs的节点依照先来先服务的原则被插入长度为|A|请求队列,若时隙t的请求数大于|A|,则超出请求队列长度的请求将被丢弃,请求队列中节点不能重复,死亡节点将被从请求队列中删除,若请求队列中的节点数小于|A|,则请求队列的空位被零填充,请求队列中的空值为非法动作,若请求队列不为空并且有空闲MC,则基站通过MACC算法根据请求队列中的合法动作依次为空闲MC选择充电的目标节点,并将其发送给对应MC,被选为动作值的节点将被从请求队列中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211462417.0/1.html,转载请声明来源钻瓜专利网。
- 同类专利
 
- 专利分类
 
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





