[发明专利]一种基于分布式的任务调度方法及系统在审
申请号: | 201410323841.6 | 申请日: | 2014-07-08 |
公开(公告)号: | CN105335219A | 公开(公告)日: | 2016-02-17 |
发明(设计)人: | 武鹏;王森茂;李世伟;邹巍;郑灏;张颖杰;张磊;刘拴林 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F9/46 | 分类号: | G06F9/46;G06F3/06;G06F11/16 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 任务 调度 方法 系统 | ||
技术领域
本发明涉及数据存储技术领域,尤其涉及一种基于分布式的任务调度方法及系统。
背景技术
随着“大数据”理念以及相关技术的演进和商业化实践,数据已经成为互联网公司最重要的资产之一。大数据概念中有几个重要的特征与存储备份集群的设计相关度非常高,即数据价值密度相对低,数据价值不确定性相对高,数据量大。这决定了存放数据需要根据数据重要性,存取性能,被访问频度,数据冗余要求等特征来针对性的提供数据服务能力。而备份集群承担了防止所有数据丢失的最后一个保障,需要充分考虑从数据内容、应用特征、服务能力、资源消耗等几个方面的实际需求。
传统的数据备份集群通常采用在线集群、近线备份、离线备份的方式。不同生命周期的数据按需求存放在不同集群中,每个层次集群对于数据访问满足时间不同。例如在线集群为实时访问(接近5~10ms级);近线集群与在线集群通过网络链路联通,存在关系为数据的导入导出,数据访问时间为准实时方式(视所需数据量与导入在线集群的时长,从分钟至小时级别);离线集群与近线集群同样为数据导入导出的关系,所需数据访问需要提前预约准备,通常以天为准备及访问时间,如图1所示。
随着在线数据的逐年增长,相应的要求近线集群以及离线集群的数据存储容量也会越来越大,因此对于近线和离线集群在可扩展性、整体成本方面的需求也会成为主要矛盾。与此同时随着云计算能力的能力提升以及被使用成本的逐年降低,对于数据价值挖掘的维度和需求也可能使得访问全量数据的需求更为频繁和迫切,那么对于近线和离线集群在整体可用性,整体性能方面也提出了要求。
其中在线集群根据其分布式框架选择合适的兼具计算和存储能力的datanodeorchunkserver(目录管理节点或块服务器)。近线备份通常采用与在线集群类似解决方案,但通过设备配置的裁剪以及使用相对廉价存储介质,例如近线SATA大容量硬盘、云盘,归档盘等,来降低TCO(TotalCostOwnership总体拥有成本)。
离线备份通常采用磁带介质存储,配合专用带库管理软件来实施。
面对目前上百PB级别的数据存储、归档、备份需求,近线存储集群和采用磁带库等商业存储软硬件一体化方案的离线备份集群在支持扩展性,访问性能需求,以及单位容量成本方面都遇到不同程度的挑战。
就近线集群而言,互联网公司基本摈弃了昂贵的,容量扩展性及性能扩展性存在局限的商用NAS(NetworkAttachedStorage,网络存储设备)设备,取而代之的是基于计算机服务器架构的分布式集群方案。而通常分布式集群方案运用比较常见得为基于Hadoop分布式文件系统的方案,其中目录管理节点通常采用大容量近线SATA硬盘以及云盘或者归档盘;这些存储介质本质上仍为微精密电控机械磁臂配合垂直记录磁存储介质的传统硬盘实现,单体功耗主要消耗在驱动磁碟旋转的马达、电控机械磁臂寻道操作,以及磁头读写操作电流做功消耗,常见3.5寸7200rpm硬盘闲时功耗约7W,满负载运行功耗10瓦以上;5400rpm低转速硬盘标称功耗约在7W,闲时功耗在4.5~5W,而10000RPM以及15000RPM硬盘的功耗更高。
针对机械硬盘背景功耗(闲时仍然需要保持磁盘旋转,即消耗电能转化为机械能)对于能源消耗,以及该过程中产生热量同时需要系统级制冷手段来带走热量,因此对于大规模利用机械硬盘磁介质方案的datanode(目录管理节点)方案需要精算其Capex(CapitalExpenditure,即资本性支出)和Opex(OperatingExpense,运营成本),而针对近线集群并非24*7实时访问,读多写少,无规划随机读,有规划顺序写的使用特征,这部分整体方案中继续使用机械硬盘介质的方案需要在capex层面投入大量的设备购置费用,在集群生命周期内需要支付大量的机架空间占用所付出的的租金,同时消耗大量的电能。
综上可知,现有技术在实际使用上显然存在不便与缺陷,所以需要一个新的方案来满足新的系统对低功耗的需求。
发明内容
针对上述的缺陷,本发明的目的在于提供一种基于分布式的任务调度方法及系统,主要解决基于IO访问的控制算法来实现冷存储数据访问的单机柜功率与整体冷数据中心的能耗可控,其充分利用闪存介质服务与能耗关系,结合数据分布式存/取的特点,降低冷数据备份集群成本。
为了实现上述目的,本发明提供一种基于分布式的任务调度方法,所述方法包括:
设置分布式集群内每个机架的被访问的任务计算节点阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410323841.6/2.html,转载请声明来源钻瓜专利网。