[发明专利]一种混合大数据处理系统及处理方法在审

专利信息
申请号: 201410605808.2 申请日: 2014-10-31
公开(公告)号: CN104468710A 公开(公告)日: 2015-03-25
发明(设计)人: 王茜;史晨昱;梁小江;李安颖;葛新 申请(专利权)人: 西安未来国际信息股份有限公司
主分类号: H04L29/08 分类号: H04L29/08
代理公司: 西安弘理专利事务所 61214 代理人: 罗笛
地址: 710075 陕西省西安*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 混合 数据处理系统 处理 方法
【说明书】:

技术领域

发明属于大数据技术领域,涉及一种混合大数据处理系统,还涉及一种混合大数据处理方法。

背景技术

目前,大数据在很多企业中已经广泛被应用,在处理大数据时,Hadoop通常被作为标准来使用,例如IBM、Oracle、SAP、甚至微软等大型软件供应商都采了Hadoop。Hadoop虽然在批量数据处理方面功效卓越,然而它对实时性要求高的业务却显得力有未逮。

而Storm是一个高度容错的、分布式的实时流式处理系统,能够在实时性需求高的场景中对持续不断的数据流进行分析处理,比如在一些精准广告推荐、话题趋势预测等。

在资源分配方面,对于Hadoop生态系统而言,无论是处理器还是存储能力等方面的需求都是随着数据量和业务复杂性的变化而动态改变的,因此,在考虑如何高效利用Hadoop系统资源的情况下,适时地将暂时不用的资源分配给需要实时处理的系统使用,再在其需要时重新获取使用将是一件有意义的事情。

发明内容

本发明的目的是提供一种混合大数据处理系统,能够降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。

本发明的另一目的是提供一种混合大数据处理方法,能够降低批处理和流式处理之间的交换,并且使得系统资源得到合理而充分的利用。

本发明所采用的一种技术方案是,一种混合大数据处理系统,包括与Gearman服务器端连接的多个客户端和多个数据处理模块,多个数据处理模块均与存储系统连接。

本发明一种技术方案的特点还在于,

数据处理模块包括strom topology单元,strom topology单元与mapreduce Job单元连接,strom topology单元和mapreduce Job单元均与Gearman服务器端连接,strom topology单元和mapreduce Job单元均与存储系统连接。

本发明所采用的另一种技术方案是,一种混合大数据处理方法,采用一种混合大数据处理系统,其结构为:包括与Gearman服务器端连接的多个客户端和多个数据处理模块,多个数据处理模块均与存储系统连接;

数据处理模块包括strom topology单元,strom topology单元与mapreduce Job单元连接,strom topology单元和mapreduce Job单元均与Gearman服务器端连接,strom topology单元和mapreduce Job单元均与存储系统连接;

采用上述混合大数据处理系统的处理方法,具体按照以下步骤实施:

步骤1,用户根据需求编写请求,客户端发送请求给Gearman服务器端,请求为实时数据处理请求或离线批量数据处理请求;

步骤2,Gearman服务器端接收客户端发送的请求,并根据请求判断将需要处理的业务分发给strom topology单元或mapreduce Job单元,如果请求为实时数据处理请求,则执行步骤3;如果请求为离线批量数据处理请求,则执行步骤4;

步骤3,strom topology单元对数据进行实时处理,并将处理结果经Gearman服务器端返回给客户端,将需要存储的数据存入存储系统中;

步骤4,mapreduce Job单元对数据进行离线批量处理,并将处理结果经Gearman服务器端返回给客户端,将需要存储的数据存入存储系统中。

本发明另一种技术方案的特点还在于,

其中,步骤3具体按照以下步骤实施:

步骤3.1,strom topology单元判断资源是否紧张,如果资源紧张,则向Hadoop系统借调资源,并执行步骤3.2;如果资源不紧张,则执行步骤3.2;

步骤3.2,strom topology单元对数据进行实时处理,并在空闲时释放资源;

步骤3.3,strom topology单元判断经过实时处理后的数据是否需要mapreduce Job单元再做处理,如果需要,则将经过实时处理后的数据发送给mapreduce Job单元处理,并将经过mapreduce Job单元处理后的数据经Gearman服务器端返回给客户端,然后执行步骤3.4;如果不需要,则将经过实时处理后的数据经Gearman服务器端返回给客户端,然后执行步骤3.4;

步骤3.4,strom topology单元判断实时处理后的数据或经过mapreduce Job单元处理后的数据是否需要存储,如果需要存储,则将最终处理后的数据发送给存储系统存储。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安未来国际信息股份有限公司,未经西安未来国际信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410605808.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top