[发明专利]一种基于强化学习的边缘计算服务激励方法在审
| 申请号: | 202011174247.7 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112288478A | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 陈武辉;徐慧颖;郑子彬 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G16Y10/45 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 苏云辉 |
| 地址: | 510006 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 边缘 计算 服务 激励 方法 | ||
1.一种基于强化学习的边缘计算服务激励方法,其特征在于,包括:
确定边缘计算服务的提供商和物联网设备的效用函数;
建立一个具有两阶段、多领导者多跟随者的博弈问题模型,确定所述提供商和物联网设备的子博弈问题;其中,所述领导者为提供商,所述跟随者为物联网设备;
构建多智能体马尔可夫决策过程模型,根据基于强化学习的最优定价算法确定每个提供商的最优定价;其中,在所述最优定价算法中每个物联网设备计算各自的最优计算服务需求并发送给提供商;
经最大次数的博弈后,确定提供商的最优定价和物联网设备的最优计算服务需求,得到提供商和物联网设备的效用函数的最大值。
2.根据权利要求1所述的基于强化学习的边缘计算服务激励方法,其特征在于,所述提供商的效用函数为:
其中,φj表示提供商j的效用函数值,i表示第个物联网设备,表示物联网设备的总量,j表示第个提供商,表示提供商的总量,xij表示提供商j为设备i提供的计算服务的数量,pj表示提供商j的计算服务的单价,cj表示提供商j的计算服务的单位成本,pk表示提供商的计算服务的单价,表示物联网设备i选择提供商j作为自己卖家的概率。
3.根据权利要求2所述的基于强化学习的边缘计算服务激励方法,其特征在于,所述物联网设备的效用函数为:
其中,φi表示第个物联网设备的效用函数值,ai表示物联网设备i完成任务所需消耗的计算资源的数量,Vi表示物联网设备i完成任务获得的奖励,e为自然常数。
4.根据权利要求3所述的基于强化学习的边缘计算服务激励方法,其特征在于,基于强化学习的最优定价算法的具体过程包括:
在第t(1≤t≤tmax)次博弈中,提供商根据当前状态和策略选择动作并公开计算服务的定价每个物联网设备根据提供商提供的计算服务的单价确定对提供商j的计算服务需求;提供商j根据在第t次博弈的定价和计算服务需求计算得到即时奖励和下一时刻的状态根据WoLF-PHC算法更新提供商j的策略;在tmax次博弈后,每个提供商的策略收敛到最优策略,得到累积奖励的最大期望值;其中,tmax为最大博弈次数。
5.根据权利要求4所述的基于强化学习的边缘计算服务激励方法,其特征在于,在第t(1≤t≤tmax)次博弈中,根据WoLF-PHC算法更新提供商j的策略的具体过程为:
提供商j根据所述即时奖励和下一时刻的状态更新Qj(sj,pj)的值,确定当前最优动作其中,Qj(sj,pj)表示提供商j在当前状态sj下选择动作pj的累积奖励的期望值,所述当前最优动作是提供商j在当前状态sj下具有最大Q值的动作;
根据平均策略和一定的参数选择规则确定第t次博弈的学习参数;其中,所述平均策略是从训练开始到第t次博弈时,提供商j在状态上更新过的策略的平均值;
提供商j根据所述当前最优动作、所述学习参数和一定的策略更新规则更新策略。
6.根据权利要求5所述的基于强化学习的边缘计算服务激励方法,其特征在于,提供商j根据所述即时奖励和下一时刻的状态更新Qj(sj,pj)的值的具体过程为:
其中,α是学习率,η是折扣因子,是提供商j在状态中最大的Q值,表示提供商j的动作空间,pj’表示提供商j的动作空间里的任一动作。
7.根据权利要求6所述的基于强化学习的边缘计算服务激励方法,其特征在于,所述当前最优动作具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011174247.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷密封三通阀
- 下一篇:信息显示方法、装置及电子设备





