[发明专利]一种面向非易失处理器的基于增强学习的备份系统及方法有效

申请号：	201911174721.3	申请日：	2019-11-26
公开（公告）号：	CN110968458B	公开（公告）日：	2022-03-29
发明（设计）人：	赵梦莹;范玮;申兆岩;蔡晓军;贾智平	申请（专利权）人：	山东大学
主分类号：	G06F11/14	分类号：	G06F11/14;G06F3/06
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	董雪
地址：	266237 ***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向非易失处理器基于增强学习备份系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向非易失处理器的基于增强学习的备份系统，其特征在于，包括：

能量获取模块，被配置为从外界能量源中获取能量并为自身电源进行充电；

数据处理模块，被配置为处理和存储数据和指令；

备份控制器，被配置为根据电源的当前电量以及由数据处理模块提供的需要备份的数据的数量信息，并结合记录了对之前在某一状态下进行的选择的评估值的历史信息Q表和对本次执行结果的即时奖赏，向数据处理模块发送执行备份动作指令或者继续执行当前动作指令；

所述备份控制器包括智能体和非易失的Q表；

所述智能体用于根据接收到的状态-动作对的奖赏或惩罚反馈信息，结合历史信息评估该状态-动作对的质量，并将质量值保存到非易失的Q表中；

所述智能体根据学习到的策略，在某一状态集下匹配最优的动作；所述动作包括备份和不备份；所述状态集中至少包括：设定类型数据的数量、电源的剩余电量以及下一条指令的类型；根据匹配出的动作给出奖赏，具体为：

其中，p和q为两个正数控制了剩余能量和程序执行进度对奖赏的影响程度，使用者通过调节这两个参数的大小来控制对不同动作的奖赏大小；剩余能量为电容器中的剩余能量；程序执行进度为当前位置距上次备份点执行的指令条数；

对某一状态-动作对(s_t,a_t)的惩罚的作用为下次再遇见状态s_t时不选择动作a_t，具体为：

Q_t+1(s_t,a_t)＝极小的负数

Q_t+1(s_t,a_t)表示下次对状态-动作对(s_t,a_t)的质量评估。

2.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统，其特征在于，所述能量获取模块包括：稳压器以及与其连接的电容；所述稳压器接收外界能量源的能量并转换为电压信号为电容充电。

3.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统，其特征在于，所述数据处理模块包括：

处理单元，用于控制指令的执行和处理数据；

易失性高速缓存，用于缓存处理器经常访问到的指令和数据；

非易失性主存，用于存储数据和指令；

非易失存储器，用于存储备份数据。

4.如权利要求1所述的一种面向非易失处理器的基于增强学习的备份系统，其特征在于，所述智能体用于根据接收到的状态-动作对的奖赏或惩罚反馈信息，结合历史信息评估该状态-动作对的质量，具体为：

其中，s_t表示当前的状态，a_t表示执行的动作，s_t+1表示执行完动作后进入的下一个状态，Q_t+1(s_t,a_t)表示下次对状态-动作对(s_t,a_t)的质量评估，Q_t(s_t,a_t)表示Q表中存储的本次根据上述公式对该状态-动作对(s_t,a_t)的质量评估，α为学习率(Learning Rate)表示先前的学习信息对当前选择的影响，R_t+1表示即时奖励，γ为衰减因子(Discount Factor)表示下一个状态的质量对当前状态-动作对质量的影响。