[发明专利]一种基于Cassandra的数据并行处理系统有效

申请号：	201310006128.4	申请日：	2013-01-08
公开（公告）号：	CN103106249A	公开（公告）日：	2013-05-15
发明（设计）人：	石宣化;金海;吴松;刘炜	申请（专利权）人：	华中科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	华中科技大学专利中心 42201	代理人：	朱仁玲
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 cassandra 数据并行处理系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机领域的分布式计算和系统结构领域，更具体地，涉及一种基于Cassandra的数据并行处理系统。

背景技术

Cassandra是一个开源的、分布式的、无中心、弹性可扩展、高可用、容错、一致性可调、面向列的非关系型数据库。它是基于亚马逊Dynamo数据库的分布式设计和谷歌BigTable的数据模型，由Facebook创建，已经在一些最流行的网站中取得了应用。当前，随着Web2.0的兴起，数据量急剧增长，海量数据的存储和处理需求对传统的关系型数据库提出了挑战，这是因为，传统的关系型数据库无法满足超大规模和高并发的数据处理需求。例如Web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息，这样一个较大的网站往往会达到每秒上万次的读写请求，而上万次的SQL写请求，是硬盘IO无法承受的。再者，类似Facebook，twitter之类的网站，每天用户产生海量的用户动态，一个月的用户动态数据会达到上亿条。在一张上亿条记录的大表里面做SQL查询，其效率是极其低下的。而在这种场景之下，Cassandra却能够满足数据处理的需求。由于Cassandra采用了MemTable机制实现读写优化，显著地提升了数据的吞吐率，可以很好地应对高并发的数据读写请求。同时，Cassandra还具有灵活的模式，能够很方便地增加或者删除字段，它采用了P2P架构，使得单点故障不会影响整个集群的服务，并且支持节点的线性扩展。然而，由于Cassandra独特的架构设计，使得其无法支持关系型数据库的诸如连接、条件查询等对数据的复杂处理。

在大数据处理领域，谷歌公司提出了针对大规模数据集的并行计算编程模型MapReduce。Hadoop是MapReduce的一个开源系统，目前已经广泛地被运用于海量数据的存储和处理。在数据处理方面，Hadoop的子项目Hive，Pig都拥有强大的数据处理能力。Hive直接将文本数据在逻辑上处理成一个大表，将传统的SQL命令解释成Hadoop程序对文本进行处理；Pig则可以更加灵活地指定数据的模式，使用面向数据流的Pig Latin语言直接进行数据处理。然而，由于Hadoop是基于分布式文件系统的存储方式，对数据的查询必须遍历整个文件，因此Hadoop不具有针对数据简单查询快速响应的能力。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于Cassandra的数据并行处理系统，旨在解决现有Cassandra系统对数据复杂处理功能的不足，该系统在数据存储方面，具有可靠性高、扩展性好、吞吐率高的优势以及针对数据简单查询快速响应的能力，同时又具备对海量数据的复杂处理能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310006128.4/2.html，转载请声明来源钻瓜专利网。

上一篇：塑料基材上选择性形成金属的结构及制造方法
下一篇：耳塞式耳机

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Cassandra的数据并行处理系统有效

专利文献下载