[发明专利]基于Q-Learning的移动终端传感器调度方法有效
申请号: | 202110271812.X | 申请日: | 2021-03-12 |
公开(公告)号: | CN113095140B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 王力立;肖强;周琪林;奚思遥;林高尚;黄成;单梁;张永 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N20/00;G06F30/27 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 薛云燕 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 learning 移动 终端 传感器 调度 方法 | ||
1.一种基于Q-Learning的移动终端传感器调度方法,其特征在于,所述方法包括以下步骤:
步骤1,为移动终端系统定义新的参数:窗口,一个窗口表示一个时间段;
步骤2,初始化移动终端系统参数和Q值表;
步骤3,确定窗口的长度;
步骤4,对Q值表进行训练优化,获得训练后的Q值表;
步骤5,利用获得的Q值表调度传感器;
步骤2所述初始化移动终端系统参数和Q值表,具体包括:
初始化移动终端系统参数,包括:总任务时长T、传感器参数、决策时长ts、最大允许延迟dmax和奖赏函数;其中,窗口具体为:将总任务时长T划分为多个时间段,每个时间段视为一个窗口,按时间顺序依次对窗口进行编号1,2,…,V,V为窗口的总个数;传感器参数包括传感器采样频率、占空比;
初始化Q值表,表中的每一个数值代表一组状态动作所对应的价值,值越大,代表对于状态而言,对应的动作能够带来预期价值最大的收益;初始化Q值表时,将表中每一个数值都设为0;
步骤4所述对Q值表进行训练优化,获得训练后的Q值表,具体包括:
步骤4-1,初始化参数,包括窗口的长度l和第一个窗口的触发策略(non1,nsleep1)、动作空间non1为在第一个窗口内传感器开启感应的时间;nsleep1为在第一个窗口内传感器关闭感应的时间;
步骤4-2,针对每一个窗口li,计算传感器所有采样数据的特征向量(Γi1,Γi2,…,Γik);当前窗口的特征向量记为si,下一窗口的特征向量记为si';
步骤4-3,基于ε-贪婪策略选择获得下一个窗口的触发策略(noni+1,nsleepi+1),其中,0≤ε<1,动作空间为触发策略的有限集合,表示为:
式中,non为在一个窗口内传感器开启感应的时间,nsleep为在一个窗口内传感器关闭感应的时间,non_max为在一个窗口内传感器允许开启感应的最大时间,nsleep_max为在一个窗口内传感器允许关闭感应的最大时间,N为传感器开启感应或关闭感应的时间属于自然数;
步骤4-4,根据上述步骤2中初始化的奖赏函数计算奖赏值r;
步骤4-5,根据Q值更新公式更新Q值,更新公式如下:
Q(s,a)=Q(s,a)+α[r+γmaxQ'(s',a')-Q(s,a)]
式中,r为下一个状态返回的奖赏值,γ为折扣系数,α为学习率,s为当前时刻用户的状态,a为当前时刻用户状态是s的情形下选择的动作,s'为当前时刻状态是s的用户选择动作为a到达下一个时刻的状态,a'为下一个时刻用户状态是s'的情形下选择的动作,Q(s,a)为当前时刻状态为s的用户选择动作a的Q值,Q'(s',a')为下一时刻状态为s'的用户选择动作a'的Q值;
步骤4-6,计算仿真实验中状态改变的时间与实际事件中状态发生改变的时间之间的延迟,若延迟超过dmax,则返回步骤4-1。
2.根据权利要求1所述的基于Q-Learning的移动终端传感器调度方法,其特征在于,步骤1和步骤3中所述的窗口,在确定窗口长度时,根据实际情况而定,遵循的原则为:既要能在窗口时段内采集足够多的信号,又要防止窗口内数据因过多而被平均化,单位为决策时长ts。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271812.X/1.html,转载请声明来源钻瓜专利网。