[发明专利]BigBase高通量大数据在线分析软硬件一体机无效
| 申请号: | 201210533520.X | 申请日: | 2012-12-12 |
| 公开(公告)号: | CN103544196A | 公开(公告)日: | 2014-01-29 |
| 发明(设计)人: | 闫忠华 | 申请(专利权)人: | 闫忠华 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 102208 北京市昌平区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | bigbase 通量 数据 在线 分析 软硬件 一体机 | ||
技术领域
BigBase高通量大数据在线分析软硬件一体机是一款大规模结构化数据存储和在线分析的新型软硬件一体机,能够解决现有服务器无法满足海量结构化数据在线分析应用的需求。
背景技术
人类发展和科技进步使得人们产生和获取的信息量呈爆炸性增长。如何处理和分析大量数据已经成为当前信息技术领域的难点和热点问题,而大数据在线分析——对海量数据进行采集、存储、计算和分析并且要求分析结果在秒级的时间内返回——更是难题中的难题。在结构化数据存储领域,传统关系型数据库的单机数据容量极限为1000万条记录到5000万条记录之间,但是当前很多应用的数据远远超出该规模,传统数据库难以应付。
发明内容
为了解决在线处理、分析海量数据的难题,BigBase高通量大数据在线分析软硬件一体机,在硬件设备方面,本产品提供专用的硬件服务器和硬件数据压缩加速卡。该系统采用技术方案是:
1、BigBase基于Hadoop平台开发,支持多索引列,任何列都可以作为索引列。
2、把常用的排序、总数、去重总数、求和平均、分组、区间等放在服务端计算。
3、通过在一个集群内将数据服务器和数据库表动态划分为不同的组,同时支持对数据服务器和数据库表进行性能的平衡。
4、以硬件数据压缩卡,实现了数据的硬件透明压缩和解压缩,有效地提升了系统的数据写入和统计查询的速度。
5、实现了一种快速并行数据导入技术,极大的提高了数据写入的吞吐量。
6、对于BigBase中的一张表(Table),可以设置限定某个单个用户的读写权限,也可以针对某个组,还可以针对其他人或者其他组进行设置。
本发明的有益效果是:该一体机有如下特性:1、高吞吐率:数据写入速度达到每台服务器每秒100万条记录以上,比关系型数据库快100倍以上,高于内存数据库的写入速度。数据查询时间在毫秒级,而关系型数据库在单表记录达到1千万条以上时查询速度会慢的难以忍受;2、服务端计算:提供NoSQL数据所不具备的区间查询以及服务端统计计算能力;3、大容量:系统可以扩展到上千台服务器,提供PB级的存储能力。而传统的关系型数据库和内存数据库只能支持TB级;4、低膨胀率:可以提供5倍以上的数据压缩率。在采用2个数据副本的情况下,系统数据甚至小于原始数据;5、软硬件一体化:通过专用的硬件服务器和数据压缩卡最大限度地提高性能;6、节能环保:一台服务器相当于普通的4台2U服务器的计算能力。机架空间占用量为普通服务器的25%,耗电量为普通服务器的40%。
具体实施方式
对于BigBase高通量大数据在线分析软硬件一体机,我们可以根据用户数据规模大小和应用需求的不同,可以有配置不同的规格型号的产品。BigBase高通量大数据在线分析软硬件一体机运行环境要求:
硬件环境:1、环境节点数:数目不少于4的同构X86_64机器;2、CPU:至少Intel或AMD双路6核及以上主流型号;3、内存:单台机器的内存不小于48GB;4、存储:只需使用本地硬盘,推荐单台机器12个硬盘盘位;硬盘型号不做特别要求,为降低系统构建成本,可以采用SATA中端普通服务器硬盘;硬盘空间大小随应用的数据规模而定;5、网卡:双千兆或者万兆网卡;
软件环境:1、OS:支持64位CentOS 5.*,或者64位CentOS 6.*;2、JVM:预装OracleX8664位JDK 1.6及以上版本;3、其他库:4、Shell;5、Gcc;
网络要求:各机器之间默认开放2181、9000、9001、9290、10090、35871、35872、35862、50060、50070、50075、50030、60030、60000、60020、60010端口。其他对外开放的端口随应用需求而定。
在底层的硬件设备方面,本产品提供专用的硬件服务器和硬件数据压缩加速卡以实现性能的进一步优化,同时也支持在通用的X86系列商用PC服务器上安装部署。
在软件方面,本产品以HDFS作为数据存储所使用的分布式文件系统,以Apache HBase为核心,以Apache Zookeeper做HBase相关节点、数据等的管理工作。在此基础上,对HBase进行了大量的改进和增强工作,加入了数据压缩/解压缩、服务端聚集计算框架、数据索引、RPC调度、性能隔离、SQL解析器、批量数据导入导出工具、用户管理与访问控制、系统运维工具、基准测试工具等模块,同时提供Web界面、命令行和Java API等三种使用方式。下面对各模块分别加以介绍:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于闫忠华,未经闫忠华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210533520.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷纤维及其制备方法
- 下一篇:一种治疗慢性支气管炎的中药药贴
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





