[发明专利]一种基于DQN的云际资源接入的决策方法及系统在审
申请号: | 202310318592.0 | 申请日: | 2023-03-28 |
公开(公告)号: | CN116471300A | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 曾荣飞;赵明洋;褚晓文;刘羽飞;韩子森 | 申请(专利权)人: | 东北大学 |
主分类号: | H04L67/12 | 分类号: | H04L67/12;G06N3/045;G06N3/0464;G06N3/092;H04L41/14;H04L41/142 |
代理公司: | 北京科领智诚知识产权代理事务所(普通合伙) 11782 | 代理人: | 陈士骞 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dqn 云际 资源 接入 决策 方法 系统 | ||
1.一种基于DQN的云际资源接入的决策方法,其特征在于,包括:
设定动作at,所述动作at包括接入、不接入;
初始化评估网络Q(st,at;w),其中,st表示状态信息,w表示第一训练参数;
设置目标网络为其中,w-表示第二训练参数;
采集状态信息st,所述状态信息st包括平台已有资源信息、用户需求信息以及云商的待接入资源信息;
所述评估网络Q(st,at;w)根据所述状态信息st执行所述动作at,得到云商价值rt;
利用所述目标网络和所述云商价值rt循环迭代训练所述评估网络Q(st,at;w),得到更新后的第一训练参数;
利用所述更新后的第一训练参数更新所述目标网络,得到新目标网络;
将所述状态信息st输入所述新目标网络,得到初步接入决策;
根据所述初步接入决策判断是否接入,若接入,云商提供待接入资源;若不接入,云商判断是否改变待接入资源信息,若是,将改变后的所述状态信息输入所述新目标网络,再次判断是否接入,若否,不接入资源;
将接入情况反馈至平台,所述状态信息st更新后,跳转至采集状态信息st步骤。
2.根据权利要求1所述的一种基于DQN的云际资源接入的决策方法,其特征在于,所述评估网络Q(st,at;w)执行所述动作at时,采取ε-贪心方法决定动作其中,ε表示探索参数。
3.根据权利要求1所述的一种基于DQN的云际资源接入的决策方法,其特征在于,利用所述目标网络和所述价值rt循环迭代训练所述评估网络,得到更新后的第一训练参数,具体为:
将所述状态信息st、动作at、云商价值rt和状态信息st+1存储至缓冲区,得到存储信息(st,at,rt,st+1);
从所述缓冲区中随机采样m条所述存储信息(st,at,rt,st+1);
设置目标值为yt=rt+maxaQ(st+1,a,w-);
更新所述第一训练参数,当所述评估网络与所述目标值的误差满足预定要求时,对应的所述第一训练参数作为更新后的第一训练参数。
4.根据权利要求1所述的一种基于DQN的云际资源接入的决策方法,其特征在于,利用所述更新后的第一训练参数更新所述目标网络,具体为:
利用所述更新后的第一训练参数替换所述第二训练参数。
5.根据权利要求1所述的一种基于DQN的云际资源接入的决策方法,其特征在于,初始化评估网络Q(st,at;w)之前,还包括:
利用卷积神经网络生成评估网络。
6.根据权利要求1所述的一种基于DQN的云际资源接入的决策方法,其特征在于,每个所述云商具有多项待接入资源,计算初步接入决策时,遍历每一项待接入资源得到每一项待接入资源的价值ri,对所有待接入资源的价值ri求和,得到对应的所述云商价值rt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310318592.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信道估计方法、装置、设备及介质
- 下一篇:一种低噪声高PSR的LDO电路