[发明专利]基于Q-Learning的移动终端传感器调度方法有效

申请号：	202110271812.X	申请日：	2021-03-12
公开（公告）号：	CN113095140B	公开（公告）日：	2022-08-16
发明（设计）人：	王力立;肖强;周琪林;奚思遥;林高尚;黄成;单梁;张永	申请（专利权）人：	南京理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N20/00;G06F30/27
代理公司：	南京理工大学专利中心 32203	代理人：	薛云燕
地址：	210094 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 learning 移动终端传感器调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Q-Learning的移动终端传感器调度方法，其特征在于，所述方法包括以下步骤：

步骤1，为移动终端系统定义新的参数：窗口，一个窗口表示一个时间段；

步骤2，初始化移动终端系统参数和Q值表；

步骤3，确定窗口的长度；

步骤4，对Q值表进行训练优化，获得训练后的Q值表；

步骤5，利用获得的Q值表调度传感器；

步骤2所述初始化移动终端系统参数和Q值表，具体包括：

初始化移动终端系统参数，包括：总任务时长T、传感器参数、决策时长t_s、最大允许延迟d_max和奖赏函数；其中，窗口具体为：将总任务时长T划分为多个时间段，每个时间段视为一个窗口，按时间顺序依次对窗口进行编号1，2，…,V，V为窗口的总个数；传感器参数包括传感器采样频率、占空比；

初始化Q值表，表中的每一个数值代表一组状态动作所对应的价值，值越大，代表对于状态而言，对应的动作能够带来预期价值最大的收益；初始化Q值表时，将表中每一个数值都设为0；

步骤4所述对Q值表进行训练优化，获得训练后的Q值表，具体包括：

步骤4-1，初始化参数，包括窗口的长度l和第一个窗口的触发策略(n_on1,n_sleep1)、动作空间n_on1为在第一个窗口内传感器开启感应的时间；n_sleep1为在第一个窗口内传感器关闭感应的时间；

步骤4-2，针对每一个窗口l_i，计算传感器所有采样数据的特征向量(Γ_i1,Γ_i2,…,Γ_ik)；当前窗口的特征向量记为s_i，下一窗口的特征向量记为s_i'；

步骤4-3，基于ε-贪婪策略选择获得下一个窗口的触发策略(n_oni+1,n_sleepi+1)，其中，0≤ε＜1，动作空间为触发策略的有限集合，表示为：

式中，n_on为在一个窗口内传感器开启感应的时间，n_sleep为在一个窗口内传感器关闭感应的时间，n_{on_max}为在一个窗口内传感器允许开启感应的最大时间，n_{sleep_max}为在一个窗口内传感器允许关闭感应的最大时间，N为传感器开启感应或关闭感应的时间属于自然数；

步骤4-4，根据上述步骤2中初始化的奖赏函数计算奖赏值r；

步骤4-5，根据Q值更新公式更新Q值，更新公式如下：

Q(s,a)＝Q(s,a)+α[r+γmaxQ'(s',a')-Q(s,a)]

式中，r为下一个状态返回的奖赏值，γ为折扣系数，α为学习率，s为当前时刻用户的状态，a为当前时刻用户状态是s的情形下选择的动作，s'为当前时刻状态是s的用户选择动作为a到达下一个时刻的状态，a'为下一个时刻用户状态是s'的情形下选择的动作，Q(s,a)为当前时刻状态为s的用户选择动作a的Q值，Q'(s',a')为下一时刻状态为s'的用户选择动作a'的Q值；

步骤4-6，计算仿真实验中状态改变的时间与实际事件中状态发生改变的时间之间的延迟，若延迟超过d_max，则返回步骤4-1。

2.根据权利要求1所述的基于Q-Learning的移动终端传感器调度方法，其特征在于，步骤1和步骤3中所述的窗口，在确定窗口长度时，根据实际情况而定，遵循的原则为：既要能在窗口时段内采集足够多的信号，又要防止窗口内数据因过多而被平均化，单位为决策时长t_s。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110271812.X/1.html，转载请声明来源钻瓜专利网。

上一篇：载体生产周期的预估方法、计算机存储介质及电子设备
下一篇：一种MIMU整体动态智能标定补偿方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Q-Learning的移动终端传感器调度方法有效

专利文献下载