[发明专利]一种基于强化学习和喷泉码的屏幕更新传输方法有效
申请号: | 202010089703.1 | 申请日: | 2020-02-12 |
公开(公告)号: | CN111314022B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 王俊峰;郑弘迪;张建平;李凡 | 申请(专利权)人: | 四川大学 |
主分类号: | H04L1/00 | 分类号: | H04L1/00;H04L1/20;H04L12/841 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 喷泉 屏幕 更新 传输 方法 | ||
1.一种基于强化学习和喷泉码的屏幕更新传输方法,其特征在于,包括以下步骤:
步骤1:在发送方,待传输的屏幕更新数据被分片并送至基于强化学习的发送速率控制模块;发送速率控制模块采用强化学习算法SARSA与传输环境进行交互,包括迭代网络状态感知、发送行为决策、行为奖励计算三个过程,实时学习不同网络状态对应的最优发送策略;发送速率控制模块根据习得的策略确定封装屏幕更新的源数据包递送至FEC编码器的速率;
步骤2:FEC编码器采用系统Raptor码作为喷泉码的具体实现,将一个源数据包对应于喷泉码中的一个符号存入编码缓冲区;当编码缓冲区中源数据包的数量低于某一阈值时,直接传输源数据包至接收方;当源数据包的数量达到该阈值时,FEC编码器将源数据包组合成一个编码块并启动编码过程,此阈值即为编码块大小;FEC编码器中的块大小调整单元根据屏幕更新的生成速率和发送速率动态调整编码块大小;
步骤3:启动编码过程后,FEC编码器中的FEC冗余自适应单元根据复合丢包率和单向时延开销计算待生成的冗余包数量,其中,复合丢包率由传输丢包率和超时丢包率决定,单向时延开销由单向传播时延和传输时延决定;若由冗余包数量推算出的容忍丢包率不低于复合丢包率且传输编码块和附加冗余包的单向时延开销不超过用户可接受的最长等待时间,则逐一增加冗余包的生成数量;
步骤4:在接收方,采用Gilbert-Elliot模型对网络丢包行为进行建模,估计网络中的平均丢包率和平均突发丢包长度并反馈给发送方;若所有源数据包被正确接收,FEC解码器不启动解码过程并移除冗余包;若源数据包丢失且收到足够多的冗余包,FEC解码器将启动解码过程,通过喷泉码恢复丢失数据;若源数据包丢失但收到的冗余包数量不足,则接收方将失序的源数据包直接提交至传输层缓冲区,以触发重传恢复丢失数据;若接收到重传数据包,则直接将其放入传输层缓冲区;最后,源数据包在应用层完成重组,形成原始屏幕更新;
在所述步骤1中,迭代网络状态感知所感知的网络状态由源数据包发送时间间隔的指数加权移动平均值、确认反馈到达时间间隔的指数加权移动平均值、最新往返时延与最小往返时延的比值、拥塞窗口大小和慢启动阈值五部分组成;发送行为对应拥塞避免阶段的拥塞窗口增量,其可选值为-1,0,+1和+2,单位为一个最大数据段长度;奖励由反映屏幕更新传输目标的效能函数确定,效能函数由以下公式表示:
Utility=Cumulative QoE=log(δ*thput)-β1log(last_RTT-RTTmin)+β2log(1-plr)
其中,thput为吞吐率,δ为吞吐率的缩放因子,β1和β2是分别表示时延和丢包率在效能函数中所占权重的常数;last_RTT为最新往返时延的采样值,RTTmin为最小往返时延;plr为丢包率;奖励Reward由最新观测到的两个效能函数值之差△U确定:
在所述步骤1中,所述强化学习算法SARSA采用以下公式实时学习和调整不同网络状态对应的发送策略:
Q(sn,an)=Q(sn,an)+α[rn+2+γQ(sn+1,an+1)-Q(sn,an)]
其中,Q(sn,an)为时间步长tn开始时在网络状态为sn的条件下执行发送行为an的预期收益,每个时间步长等于一个往返时延;α为学习率;rn+2为时间步长tn+2开始时计算得到的奖励值;γ为折扣因子;sn+1为执行an后观测到的网络状态;an+1为根据sn+1所选择的发送行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010089703.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能空调电量计算与供比显示方式
- 下一篇:一种喷雾冷却气液换热器