[发明专利]一种基于机器学习和ceph思想的分布式储存方法在审
申请号: | 201911389335.6 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111026337A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 李昕哲;李欣宇;李刚 | 申请(专利权)人: | 中科星图股份有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 101399 北京市顺义区临空经济核心*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 ceph 思想 分布式 储存 方法 | ||
本发明提出一种基于机器学习和ceph思想的分布式储存方法,包括如下步骤:步骤1:硬盘识别系统通过采用基于归一化和支持向量机的硬盘识别模型,根据现有存储介质的特征进行存储介质分类,分为高、中、低等级;步骤2:文件识别系统通过基于文件特征权值的无监督学习模型,对分类错误的文件的结果进行模型矫正;对分类正确的文件所需的存储介质等级进行匹配,选择存储介质使用策略;步骤3:用户需要读写的文件与储存介质的位置根据改进后的CRUSHING算法进行映射,根据映射将文件进行分布式储存。本发明通过将存储文件切块,将各个模块逻辑化,解耦了存储业务中各个模块,加入了分类机制,使得热数据与高效的盘对应;低效的盘做备份,使系统更安全,造价更低廉。
技术领域
本发明涉及数据存储领域,尤其是一种于机器学习和ceph思想的分布式储存方法。
背景技术
随着大规模分布式存储系统(PB级的数据和成百上千台存储设备)的出现。这些系统必须平衡的分布数据和负载(提高资源利用率),最大化系统的性能,并且要处理系统的扩展和硬件失效。ceph设计了CRUSH(一个可扩展的伪随机数据分布算法),用在分布式对象存储系统上,可以有效映射数据对象到存储设备上(不需要中心设备)。因为大型系统的结构是动态变化的,CRUSH能够处理存储设备的添加和移除,并最小化存储设备的的添加和移动而导致的数据迁移。
传统的Ceph架构,由于它的去中心化和伪随机分布,平等化的思想,无法更高效的利用硬盘,存在以下缺点:
传统分布式储存方法将存储模块集中在一起进行储存,无法实现分布式数据储存且储存资源利用率低。如今,全球数据存储量呈现爆炸式增长,数据业务的急剧增加,传统单一的SAN存储或NAS存储方式已经不适应业务发展需要。SAN存储:成本高,不适合PB级大规模存储系统。数据共享性不好,无法支持多用户文件共享。NAS存储:共享网络带宽,并发性能差。随系统扩展,性能会进一步下降;
传统集中存储的将物理介质集中布放;数据上传到存储中心对机房环境要求高,要求机房空间大,承重、空调等都是需要考虑的问题;
传统储存方法存储数据大多以块为单位,忽略了用户对不同数据有不同的存储需求,导致某些低存储需求的数据抢占高存储需求数据的存储资源;
其无法分辨硬盘的好坏,无法将热数据放入条件更好的硬盘中。无法将高性能的盘作为存储的主节点,低性能的盘作为备份。
发明内容
为了解决上述问题,本发明提出了可分类(文件和硬盘),高性能,高可用性,高扩展性的分布式存储方法,利用机器学习,给上传文件和底层的存储盘分类。每个分类就是给Ceph加上的限定,在限定范围内,实现其去中心化,平等化思想,更好的适应我们的应用场景。
本发明提出一种基于机器学习和ceph思想的分布式储存方法,包括如下步骤:
步骤1:硬盘识别系统通过采用基于归一化和支持向量机的硬盘识别模型,根据现有存储介质的特征进行存储介质分类,分为不同级别的多个等级;
步骤2:文件识别系统通过基于文件特征权值的无监督学习模型,对分类错误的文件的结果进行模型矫正;对分类正确的文件所需的存储介质等级进行匹配,选择存储介质使用策略;
步骤3:用户需要读写的文件与储存介质的位置根据改进的CRUSHING算法进行映射,根据映射将文件进行分布式储存。
进一步的,所述步骤1中,基于机器学习进行硬盘识别,包括:选择硬盘并获取硬盘信息,具体包括:是否是固态、是否为机械、主控方案、颗粒等级、出厂日期、硬盘读写速度作为识别特征,计算特征的均值、标准差进行均值归一化,再通过基于支持向量机模型训练硬盘类型识别的识别模型,利用基于支持向量机训练的硬盘识别模型对硬盘进行识别;所述分为不同级别的多个等级包括分为高、中、低三个等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科星图股份有限公司,未经中科星图股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911389335.6/2.html,转载请声明来源钻瓜专利网。