[发明专利]一种基于分布式文件系统的海量地学数据并行处理方法有效
申请号: | 201310076895.2 | 申请日: | 2013-03-11 |
公开(公告)号: | CN103198097A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 黎建辉;沈庚;周园春;王学志;韦远科;张洋 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 文件系统 海量 地学 数据 并行 处理 方法 | ||
技术领域
本发明属于生态及地理信息学技术领域,涉及海量遥感地学数据的存储与并行处理,尤其涉及一种基于分布式文件系统的海量地学数据并行处理方法,主要应用于遥感生态监测、物种分布预测以及遥感地学数据反演等相关领域的针对海量数据的处理方法。
背景技术
文件系统是计算机系统重要的组成部分,随着网络技术的发展,独立平台上的文件系统有向高速局域网上发展的趋势,逐渐形成分布式计算机环境中的一个支撑技术-分布式文件系统(Distributed File System)。分布式文件系统的关键技术主要包括虚拟文件系统、高速缓存技术以及所需的通讯技术(应朝晖高洪奎.《计算机工程与科学》1995年第3期。)分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。
作业调度系统又叫做任务调度系统,用于将大批量的计算任务分配给多个计算单元,使这些计算单元可以并行的处理计算任务,最常见的是操作系统的进程调度器。在一个分布式计算系统中,作业调度器的主要功能是收集并管理计算任务,将任务合理的分配给网络上的各个节点,使批量的任务可以并行高效的执行。同时,它还要具备一些与作业执行相关的辅助功能,比如追踪作业执行的过程,回收作业执行的结果等等。作业调度系统多用于高性能计算和计算网格中,调度技术的应用,不仅缩短了大批量计算任务的处理时间,而且使得计算集群的计算性能得以高效的发挥。
遥感影像是地理信息数据的主要组成部分,凡是纪录各种地物电磁波大小的胶片(或相片),都称为遥感影像,在这里主要是指航空像片和卫星像片。对于大量的遥感数据,想要从中获取有用的地学信息,需要使用复杂的计算机系统对其进行处理。常见的软件工具像GDAL(Geospatial Data Abstraction Library),GDAL(http://www.gdal.org/)是一个在X/MIT许可协议下的开源栅格空间数据转换库。它利用抽象数据模型来表达所支持的各种文件格式,还包含一系列命令行工具来进行数据转换和处理。过去二十年里,对地观测已经获取了海量的影像数据。在下个十年,对地观测系统(EOS)和其他地球观察平台将以每天超过115TB的速度产生海量影像数据。面对这些堆积如山的影像数据,如何从中高效地检索、显示用户感兴趣的数据成为当前的研究热点。(Ruixin Yang.Value range queries on earth science data via histogram clustering[M].Lecture Notes In Computer Science,1999.)
地学影像数据大数据量和计算复杂度高的特点使得地学数据的处理,特别是海量数据相关的计算和对响应时间要求较高的在线数据计算服务成为了一个重大的挑战。因此需要一种方法能够解决海量地学数据的存储和快速处理的问题,并且能够提供高质量的数据计算服务。虽然一些传统的大数据处理技术已被应用于各个领域的数据处理,但对于以遥感影像文件为主的地学信息计算,受制于数据文件的特别格式和处理工具的单一使用方式,传统的处理技术很难在短时间内满足地学信息计算的需求。
发明内容
从以上的分析可以看出,地学数据的数据量非常大,遥感数据的存储和处理亟需高效可用的技术方案。单台服务器处理数据的方式受制于机器内存和存储空间的限制,无法满足处理海量数据的需求。现有的一些通用的大数据处理集群技术,比如MapReduce、MPI等,由于地学计算的特殊性,又无法方便快速的应用于地学数据的计算。针对现有技术存在的技术问题,本发明的目的在于提供一种基于分布式文件系统的海量地学数据并行处理方法,本发明利用分布式文件系统和作业调度技术,将一个单台服务器上运行的地学数据处理应用扩展为一个可在集群上高效并行执行的应用的技术。
本发明的技术方案为:
一种基于分布式文件系统的海量地学数据并行处理方法,其步骤为:
1)采用分布式文件系统作为地学数据的存储系统,将所述分布式文件系统部署在计算集群上;其中,所述分布式文件系统拥有一个统一的名称空间;
2)计算集群的作业调度系统将接收的计算作业保存到一等待队列中;
3)作业调度系统从所述等待队列中选择一个计算作业进入运行队列;
4)作业调度系统根据进入所述运行队列的计算作业信息,在分布式文件系统的元数据中查找该计算作业运行需要的数据文件所在的计算节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310076895.2/2.html,转载请声明来源钻瓜专利网。