[发明专利]一种基于Q学习的可穿戴设备发射功率控制方法有效
| 申请号: | 201711499542.8 | 申请日: | 2017-12-29 | 
| 公开(公告)号: | CN108235424B | 公开(公告)日: | 2021-01-22 | 
| 发明(设计)人: | 肖亮;陈子轩;康显桂;安宁 | 申请(专利权)人: | 中山大学 | 
| 主分类号: | H04W52/24 | 分类号: | H04W52/24;H04W52/26;H04W52/36;H04W52/02 | 
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈卫 | 
| 地址: | 510000 广东*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 学习 穿戴 设备 发射 功率 控制 方法 | ||
1.一种基于Q学习的可穿戴设备发射功率控制方法,其特征在于,包括以下步骤:
S1.均匀地将发射功率p划分为M个功率等级,取值[1,2,…,M];与可穿戴设备进行通信的接收设备称为信息接收端,可穿戴设备每经L秒调整一次发射功率,记为一个时隙ts;
S2.对于第k个时隙记发射功率为p(k);
在整个时隙中,可穿戴设备执行以下操作:
根据时隙内与信息接收端的通信情况,测定时隙中的平均发送时延,记为T(k),T(k)根据发送时延的长短划分为Nt个等级,取值[1,2,…,Nt];测量用户身体状态指标,包括脉搏、血压,计算发送信息重要性,记为R(k),R(k)与用户身体状态异常程度正相关,划分为Nr个等级,取值[1,2,…,Nr];
在进入时隙时,可穿戴设备执行以下操作:
发送信号强度请求至信息接收端,接收端收到此请求时测定当前的接收信号强度,记为G(k),并将信号强度信息反馈至可穿戴设备,G(k)根据信号强弱划分为Ng个等级,取值[1,2,…,Ng];检测设备剩余电量情况,记为E(k),E(k)的取值根据占总电量百分比均匀划分为Ne个等级,取值[1,2,…,Ne];
在整个时隙中,信息接收端计算所接收信息的误码率m(k),在时隙将要结束时告知可穿戴设备,
对于时隙取信息量集合,s(k)=[T(k-1),G(k),R(k-1),E(k)];
S3.可穿戴设备在工作过程中,每个时隙结束时均计算系统效益,计算时隙的系统效益U(s(k),p(k))的方法如下:
其中ρ、λ、β为调节因子,用于调节设备各方面工作效益的所占比重;
S4.可穿戴设备使用Q学习算法,在工作过程中对发射功率p做出逐时隙的控制,包括以下步骤:
S401.计算集合s(k)的取值数量N=NtNrNgNe,而发射功率p的取值数量为M,初始化一个大小为N×M的全零矩阵作为Q矩阵,并通过Q函数Q(s(k),p(k)),对任意时隙得到变量(s(k),p(k))对Q矩阵中Q值的映射值;根据实际需求,预设概率值ε控制发射功率的选择,预设参数α和δ调节Q学习的速率和探索性;其中,0ε1、0α1、0δ1;
S402.可穿戴设备开始工作的初始时隙记为此时隙随机选择发射功率p(1);对于第k个时隙在进入时隙时,设备根据步骤S2所述信息量集合计算方法观测得到信息量集合s(k),使用Q函数获取Q矩阵中s(k)对应的Q值列Q(s(k),p);
S403.在时隙结束时,再次根据步骤S2所述信息量集合计算方法得到下一时隙的工作状态s(k+1),根据步骤S3所述系统效益计算方法计算当前系统效益U(s(k),p(k)),使用如下公式对Q矩阵进行更新:
Q(s(k),p(k))=(1-α)Q(s(k),p(k))+α(U(s(k),p(k))+δmaxQ(s(k+1),p))
S404.重复步骤S402至步骤S403的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711499542.8/1.html,转载请声明来源钻瓜专利网。





