[发明专利]一种大数据系统在审
申请号: | 201410658038.8 | 申请日: | 2014-11-18 |
公开(公告)号: | CN104361091A | 公开(公告)日: | 2015-02-18 |
发明(设计)人: | 辛国茂;张东;亓开元;赵仁明;房体盈;曹连超;卢军佐;金洪殿;刘伟;杨勇;李占强;范荣盛 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 系统 | ||
技术领域
本发明涉及计算机信息存储与处理技术领域,具体涉及一种大数据系统。
背景技术
信息科技经过60多年的发展,已渗透到各行业的方方面面。政治、经济活动中很大一部分的活动都与数据的创造、采集、传输和使用相关,随着网络应用日益深化,大数据应用的影响日益扩大。根据机构测算,全世界数据总量以每两年翻一番的速度递增。换句话说,最近两年产生的数据总量相当于人类有史以来所有数据量的总和。在这个背景下,从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化。
大数据指的是大小超出常规的数据工具获取、存储、管理和分析能力的数据集,并不是说一定要超过特定TB值得数据集才能算是大数据。国际数据公司(IDC)从四个特征定义大数据,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。大数据几乎渗透到国民经济的所有部门,应用领域涉及信息服务、智慧城市、金融、制造业、国家安全和科学研究等。但目前这些行业处理大数据时,至少会面临如下的问题:
1.数据存储与管理
大数据给存储系统带来了3个方面的挑战:存储规模大,通常达到PB(1,000TB)甚至EB(1,000PB)量级;存储管理复杂,需要兼顾结构化、非结构化和半结构化的数据;上层应用对存储系统的性能、可靠性等指标有不同的要求,而数据的大规模和高复杂度放大了达到这些指标的技术难度。
3.数据分析处理
传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的并行计算抽象和模型,但由于大数据处理问题具有很有高层的数据特征和计算特征,因此大数据处理需要更多地结合这些高层特征考虑更为高层的计算模式。大数据处理包括以下典型的特征和维度:
●数据结构特征
可分为结构化数据处理、半结构化数据处理与非结构化数据处理。
●数据获取处理方式
按照数据获取方式,大数据可分为批处理与流式计算方式。
●数据处理类型
从数据处理类型来看,大数据处理可分为传统的查询分析计算和复杂的数据挖掘分析计算。
●实时性
从数据计算响应性能角度看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与离线计算。
●并行计算体系结构
由于需要支持大规模数据的存储计算,大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台。
针对如上问题,开源社区和国内外厂商都在进行相应的尝试和努力。大数据查询分析的典型系统包括Hadoop下的HBase和Hive,Facebook开发的Cassandra,Google公司的Dremel,Cloudera公司的Impala;此外为了实现更高性能的数据查询分析,还出现了不少基于内存的分布式数据存储管理和查询系统,如UC Berkeley AMPLab的基于内存计算引擎Spark的数据仓库Shark。还有MPP(massively parallel processing)数据库,比如EMC的GreenPlum,HP的Vertica。
最适合于大数据批处理的计算模式是MapReduce。MapReduce是一个单输入、两阶段(Map和Reduce)的数据处理过程。MapReduce的简单易用性使其成为目前大数据处理最为成功、最广为接受使用的主流并行计算模式。在开源社区的努力下,Hadoop系统目前已发展成为较为成熟的大数据处理平台,并已发展成一个包含众多数据处理工具和环境的完整的生态系统。Spark也是一个批处理系统,在性能方面比Hadoop MapReduce有很大提升,但是其易用性及稳定性方面目前仍不如Hadoop MapReduce。
流式计算是一种高实时性的计算模式,需要对一定时间窗口内产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。Facebook的Scribe和Apache的Flume都提供了机制来构建日志数据处理流图。通用的流式计算系统是Twitter公司的Storm、Yahoo公司的S4、以及UC Berkeley AMPLab的Spark Streaming。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410658038.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索方法及装置
- 下一篇:使用空间听觉线索的数据搜索
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置