[发明专利]一种并行的数据处理方法、装置和并行的数据处理系统有效
| 申请号: | 201010200891.7 | 申请日: | 2010-06-10 |
| 公开(公告)号: | CN102279730A | 公开(公告)日: | 2011-12-14 |
| 发明(设计)人: | 樊航成 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F9/50 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 并行 数据处理 方法 装置 数据处理系统 | ||
技术领域
本申请涉及通信和计算机技术领域,特别是涉及一种并行的数据处理方法、装置和并行的数据处理系统。
背景技术
随着web2.0技术的发展,互联网应用或者互联网平台中的业务数据,如用户行为数据和平台系统数据,都呈现出海量增长的趋势。为了适应对海量业务数据进行数据处理的应用需求,如,在互联网网站平台中,需要对用户行为数据和平台系统数据进行分析和计算,一种分布式的并行数据处理技术应运而生,其利用多个计算机相互协作工作,共同完成对海量数据的处理。
当前,在大型的互联网网站平台中,应用最为广泛的一种分布式并行计算框架是Hadoop系统框架。请参阅图1,其为现有技术中Hadoop系统框架的结构示意图。如图1所示,系统中包括一台主设备(Master)和一个从设备(Slave)集群,其中,每台从设备都具有逻辑功能上的数据节点(DataNode)和子任务追踪器(TaskTracker)。DataNode负责存储业务数据,TaskTracker负责执行主设备推送的任务,即,对DataNode中存储的业务数据进行处理,并将任务的执行结果进行局部合并。主设备从逻辑功能来看,包括名字节点(NameNode)和任务追踪器(JobTracker)。NameNode负责管理各个从设备中存储的业务数据,JobTracker负责启动、跟踪和调度各个从设备。
但是,发明人在研究中发现,在现有的Hadoop系统中,主设备通过维护一个节点信息列表来管理集群中所有从设备的信息,并基于节点信息列表中的所有从设备信息制定了任务分配算法,按照任务分配算法将任务推送给各个从设备。然而,当系统中出现资源不足,需要动态扩展从设备时,或者出现资源浪费,需要删除从设备时,主设备必须先更新自身维护的节点信息列表,再基于更新的节点信息列表制定新的任务分配算法,以便主设备按照任务分配算法将任务推送给各个从设备,由从设备并行地进行数据处理。
由此可见,现有Hadoop系统中并行的数据处理方法和相应的并行数据处理系统在扩展或者删除从设备时过程繁琐,并不利于动态扩展或者删除从设备,在资源不足或者资源浪费的情况下无法快速调整集群规模。
发明内容
为了解决上述技术问题,本申请实施例提供了一种并行的数据处理方法和并行的数据处理系统,以支持系统在资源不足或者资源浪费的情况下快速调整集群规模。
本申请实施例公开公开了如下技术方案:
一种并行的数据处理方法,包括:主设备从数据源处获知需要进行处理的待处理数据,为每个待处理数据创建一个任务;主设备在接收到从设备发送的获取任务的请求消息时,为发送请求的从设备分配任务,对从设备返回的执行结果进行合并,并且,动态记录每个任务的执行状态,所述执行状态包括未执行、执行中、已执行和已合并;主设备输出被合并任务的执行结果。
一种并行的数据处理装置,包括:任务创建模块,用于从数据源处获知需要进行处理的待处理数据,为每个待处理数据创建一个任务;任务分配模块,用于在接收到从设备发送的获取任务的请求消息时,为发送请求的从设备分配任务;合并模块,用于对从设备返回的执行结果进行合并;动态记录模块,用于动态记录每个任务的执行状态,所述执行状态包括未执行、执行中、已执行和已合并;结果输出模块,用于输出被合并任务的执行结果。
由上述实施例可以看出,由于主设备不再推送任务给从设备,而是在接收到从设备发送的获取任务的请求消息时,为从设备分配任务,同时,由于主设备不再通过维护一个节点信息列表来管理集群中所有从设备的信息,而是为每个待处理数据创建一个任务,并动态记录每个任务的执行状态。因此,对于主设备来说,从设备可以随时加入集群并向主设备请求分配任务,或者随时退出集群,在资源不足或者资源浪费的情况下可以快速调整集群规模。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种数据计费方法的一个实施例的流程图;
图2为本申请一种并行的数据处理方法的一个实施例的流程图;
图3为本申请一种系统应用场景示意图;
图4为本申请中任务的状态转换图;
图5为本申请一种并行的数据处理的交互流程图;
图6为本申请一种并行的数据处理装置的一个实施例的结构图;
图7为本申请一种并行的数据处理装置的另一个实施例的结构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010200891.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于微博的情感词提取收集方法
- 下一篇:一种计算机扩展基座





