[发明专利]基于强化学习的多数据SSD中的闪存资源分配方法在审
| 申请号: | 202110810444.1 | 申请日: | 2021-07-19 |
| 公开(公告)号: | CN113608867A | 公开(公告)日: | 2021-11-05 |
| 发明(设计)人: | 杨峰;纪程;吴超;周明亮 | 申请(专利权)人: | 南京中科逆熵科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210000 江苏省南京市麒麟*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 多数 ssd 中的 闪存 资源 分配 方法 | ||
1.一种基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,具体步骤为:
将来自不同应用程序的I/O请求聚集到多个I/O流中,闪存控制器从主机端和设备端收集主机状态相关因素,以确定主机当前状态,并根据贪婪策略,进行探索或利用,其中,探索是指随机选择分配动作,利用是指将当前状态、权重以及所有动作逐一输入至深度Q网络,由深度Q网络计算出每个动作的Q值逼近值,选择Q值逼近值最高的动作;
将选定的动作发送至设备控制器中的资源分配器,资源分配器执行动作,决定闪存资源分配策略以及下一次触发闪存控制器决策的时间;
闪存控制器收集奖励计算中所需的所有因子,计算最后一个状态-动作-权重对的真实Q值,并将真实Q值与Q值逼近值反向输入到深度Q网络进行反向传播在线训练;
闪存控制器将最后一个状态-动作-权重-奖励存储在重放缓冲区中,并随机挑选另一个状态-动作-权重-奖励对在深度-Q-网络中训练。
2.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,根据贪婪策略,进行探索或利用的具体方法为:
定义ε为随机选择动作的概率,初始时将ε设为1来进行贪婪探索,并以0.01为步长线性下降ε值来实现探索和利用的权衡,直至所有状态-动作均探索完成后将ε降至0.01来最大化训练成果利用率。
3.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,所述主机状态包括I/O状态和设备运行状态。
4.根据权利要求3所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,所述I/O状态包括:I/O流数量、每个流的数据写入量、当前为每个流分配的闪存资源以及每个I/O流内有效页面和无效页面的比率;
设备运行时状态包括:每个通道、芯片的活动状态;每个芯片的磨损状态;每个芯片中无效页面的比例。
5.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,所述动作包括闪存资源分配动作和触发频率动作组成,所述闪存资源分配动作包括:不分配芯片资源;从选定的I/O流回收芯片资源到资源池;从资源池分配选定的芯片到选定的I/O流;所述触发频率动作是指下一次触发强化学习模型的时间间隔。
6.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,奖励计算中所需的因子指每个动作产生价值的相关因素,包括:寿命因素、性能因素以及公平性因素,寿命因素包括闪存设备消耗的写/擦除周期、GC中触发的页面迁移数量;性能因素包括每个芯片中I/O冲突的数量、I/O延迟;公平性因素由流公平性确定,具体计算公式为:
其中,F为流公平性,Wi是第i个流的权重,Bi为该流的带宽,n为I/O流总数。
7.根据权利要求1所述的基于强化学习的多数据SSD中的闪存资源分配方法,其特征在于,所述权重由强化学习模型指定相应值,并由动态权重生成器生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中科逆熵科技有限公司,未经南京中科逆熵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110810444.1/1.html,转载请声明来源钻瓜专利网。





