[发明专利]一种面向非易失处理器的基于增强学习的备份系统及方法有效
| 申请号: | 201911174721.3 | 申请日: | 2019-11-26 | 
| 公开(公告)号: | CN110968458B | 公开(公告)日: | 2022-03-29 | 
| 发明(设计)人: | 赵梦莹;范玮;申兆岩;蔡晓军;贾智平 | 申请(专利权)人: | 山东大学 | 
| 主分类号: | G06F11/14 | 分类号: | G06F11/14;G06F3/06 | 
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 | 
| 地址: | 266237 *** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 面向 非易失 处理器 基于 增强 学习 备份 系统 方法 | ||
1.一种面向非易失处理器的基于增强学习的备份系统,其特征在于,包括:
能量获取模块,被配置为从外界能量源中获取能量并为自身电源进行充电;
数据处理模块,被配置为处理和存储数据和指令;
备份控制器,被配置为根据电源的当前电量以及由数据处理模块提供的需要备份的数据的数量信息,并结合记录了对之前在某一状态下进行的选择的评估值的历史信息Q表和对本次执行结果的即时奖赏,向数据处理模块发送执行备份动作指令或者继续执行当前动作指令;
所述备份控制器包括智能体和非易失的Q表;
所述智能体用于根据接收到的状态-动作对的奖赏或惩罚反馈信息,结合历史信息评估该状态-动作对的质量,并将质量值保存到非易失的Q表中;
所述智能体根据学习到的策略,在某一状态集下匹配最优的动作;所述动作包括备份和不备份;所述状态集中至少包括:设定类型数据的数量、电源的剩余电量以及下一条指令的类型;根据匹配出的动作给出奖赏,具体为:
其中,p和q为两个正数控制了剩余能量和程序执行进度对奖赏的影响程度,使用者通过调节这两个参数的大小来控制对不同动作的奖赏大小;剩余能量为电容器中的剩余能量;程序执行进度为当前位置距上次备份点执行的指令条数;
对某一状态-动作对(st,at)的惩罚的作用为下次再遇见状态st时不选择动作at,具体为:
Qt+1(st,at)=极小的负数
Qt+1(st,at)表示下次对状态-动作对(st,at)的质量评估。
2.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统,其特征在于,所述能量获取模块包括:稳压器以及与其连接的电容;所述稳压器接收外界能量源的能量并转换为电压信号为电容充电。
3.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统,其特征在于,所述数据处理模块包括:
处理单元,用于控制指令的执行和处理数据;
易失性高速缓存,用于缓存处理器经常访问到的指令和数据;
非易失性主存,用于存储数据和指令;
非易失存储器,用于存储备份数据。
4.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统,其特征在于,所述智能体用于根据接收到的状态-动作对的奖赏或惩罚反馈信息,结合历史信息评估该状态-动作对的质量,具体为:
其中,st表示当前的状态,at表示执行的动作,st+1表示执行完动作后进入的下一个状态,Qt+1(st,at)表示下次对状态-动作对(st,at)的质量评估,Qt(st,at)表示Q表中存储的本次根据上述公式对该状态-动作对(st,at)的质量评估,α为学习率(Learning Rate)表示先前的学习信息对当前选择的影响,Rt+1表示即时奖励,γ为衰减因子(Discount Factor)表示下一个状态的质量对当前状态-动作对质量的影响。
5.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统,其特征在于,所述智能体根据学习到的策略,在某一状态集下匹配最优的动作,具体为:
其中,ζ表示一个随机数;ε表示一个预设的值,其决定了随机选择动作的概率;Qt(st,at)表示Q表中存储的本次对状态-动作对(st,at)的质量评估。
6.一种面向非易失处理器的基于增强学习的备份方法,其特征在于,包括:
根据设定类型数据的数量、电源的剩余电量以及下一条指令类型的状态信息,在存储有状态-动作对应的Q值的非易失的Q表中,匹配出最优的动作;
根据匹配出的动作给出奖赏或惩罚,智能体根据接收到的奖赏或惩罚计算相应的状态-动作对的Q值并存储在非易失的Q表中,作为下一次在该状态下选择动作的参考;
根据匹配出的动作给出奖赏,具体为:
其中,p和q为两个正数控制了剩余能量和程序执行进度对奖赏的影响程度,使用者通过调节这两个参数的大小来控制对不同动作的奖赏大小;剩余能量为电容器中的剩余能量;程序执行进度为当前位置距上次备份点执行的指令条数;
对某一状态-动作对(st,at)的惩罚的作用为下次再遇见状态st时不选择动作at,具体为:
Qt+1(st,at)=极小的负数
Qt+1(st,at)表示下次对状态-动作对(st,at)的质量评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911174721.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种功能多肽苦味预测方法
- 下一篇:一种多功能全自动轮椅





