[发明专利]一种基于人工智能的缓存优化方法有效
申请号: | 201810444606.2 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108829343B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 郭皓明;魏闫艳 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;成金玉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 人工智能 缓存 优化 方法 | ||
本发明公开了一种基于人工智能的缓存优化方法,将存储在磁盘空间中的数据集分割为大小均一的数据块;在增量过程中,统计不同数据块的命中率;在缓存更新过程中,首选根据前述命中率筛选命中较高的数据块并对这些数据块进行时间序列上的状态预测,将状态预测值为热的数据块作为核数据块。同时,根据预设的溢出边界以核数据块为中心建立溢出区,对每个数据块做状态预测,在这一预测过程中,将该数据块的时间序列状态预测与周边数据块的时间序列状态预测值进行统一处理,最终形成该数据块的状态预测值,实现缓存数据集的筛选。
技术领域
本发明属于大数据与人工智能领域,具体涉及一种基于人工智能的缓存优化方法。
背景概述
在信息系统中存在大量数据集,这些数据集均存储在磁盘中,受IO技术机制的限制,数据集的读取与检索效率存在瓶颈。当信息系统中数据增量规模较大时,这一瓶颈成为制约系统性能的关键因素。同时由于读写效率低下,系统的可靠性与健壮性也收到较大影响。针对这一问题,随着信息技术的进步与硬件产品价格的降低,一些信息系统采用分布式结构以及多层索引的架构,以期降低IO瓶颈的约束。在这些场景中,存储环境由多台存储设备构成,每一个设备均负责本地的数据读写与检索。大规模的数据集根据一定原则被切分成较小的数据子集,这些数据子集根据一定映射关系(例如:哈希)被分发到不同的存储设备中,存储设备在增量过程中实现本地数据存储以及索引维护。为了提高检索效率,整个系统构建多层索引,实现数据的统一存储管理、查询与提取。
上述方法在一定程度上能够满足大规模数据集的管理与检索服务要求。但是,随着数据规模的增大,为了保证性能与效率,需要不断增大存储设备的规模,导致系统成本与复杂性逐渐升高。同时,随着系统规模的攀升,系统整体可靠性也受到一定程度影响。
另一方面,缓存是一种常用的数据管理技术。它是根据一定原则,筛选一批具有较高检索需求的数据集,将其存储在特定的存储空间(例如:内存)中。在增量过程中,将数据一致性地写入缓存与磁盘。在检索过程中,首先检索缓存中的数据集,如果缓存满足检索任务请求,则直接从缓存中完成数据提取。如果检索数据范围溢出缓存数据集,则在磁盘存储数据集中检索对应溢出部分数据,经过汇聚处理后返回检索任务请求。这些存储空间的读写效率远远高于磁盘读写效率。因此,在应用中能够保证系统数据服务效率。同时,由于缓存中的数据与磁盘中的持久化存储数据是互为副本的关系。因此,不会出现一致性破坏的情况。基于这一机制,缓存技术在数据管理与信息服务系统中发挥重要作用。
缓存技术在应用过程中,一个关键问题是缓存数据集的命中效率。被选择加载到缓存的数据集应该具有较高的检索命中率,这样才能真正发挥缓存技术的优势。因此,在大多数信息系统中,缓存需要进行动态组织,根据一定的时间周期,分析数据集中命中率较高的部分,将其作为“热”数据,加载至缓存。通过这一方式,保证缓存整体效率。在缓存技术中,识别数据“冷”、“热”就成为一个重要技术难题。目前,这一领域多采用基于统计的方法,即在一定周期内,统计数据集中被命中的次数,通过一定阈值或相对比值实现数据冷热的识别。这一技术在实际应用中具有以下一些问题:
(1)从时间维度上看,数据冷热状态本质上是受检索请求影响,每个检索请求的约束范围导致数据冷热性质变换。从时间序列上看,检索请求是随机的、离散的。因此,基于增量的统计并不能真正反映数据冷热状态变化的趋势;
(2)从空间维度上看,数据集具有一定的空间尺度,数据集中数据块之间的冷热性质一定的互相影响的关系。基于统计的方法中,将数据块看做独立对象,其分析过程中,一个数据块的状态仅仅由其自身统计量计算获得,并未考虑其周边数据块状态变化对其影响。这就导致缓存筛选过程中,数据块的碎片化情况较为严重。同时,溢出率较高,影响缓存效率的发挥。
发明内容
本发明提出一种基于时间序列状态预测的缓存优化方法,本发明能够有效保证缓存数据集较高命中率的同时,合理设置溢出边界,提高缓存空间利用效率,在面向大型装备的智能监控、多目标跟踪定位、在线社交系统、电子商务系统以及地理信息服务系统等方面具有较大应用价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810444606.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志存储方法、系统及存储装置
- 下一篇:数据存储方法、装置及存储介质