[发明专利]一种数据的并行处理方法和系统有效
| 申请号: | 201410307198.8 | 申请日: | 2014-06-30 |
| 公开(公告)号: | CN104036039B | 公开(公告)日: | 2017-09-29 |
| 发明(设计)人: | 亓开元;赵仁明;辛国茂;房体盈 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 胡艳华,李丹 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 并行 处理 方法 系统 | ||
技术领域
本发明涉及大数据处理技术领域,尤其涉及的是一种数据的并行处理方法和系统。
背景技术
随着人类社会全面进入信息时代,数据成为与水、石油同等重要的战略资源。通过挖掘海量数据,能够使政府和企业的运行决策建立在更加科学的依据基础上,提高决策效率、危机应对能力和公共服务水平。
然而,大数据虽然极具价值,但由于类型复杂、规模巨大,传统的数据仓库和分布式处理技术都有特定的短板,面临着持续可扩展和天价成本等问题。例如,数据仓库中常用的记录某个对象行为的历史状态数据,在大数据时代随着对象数量(如客户)的急速增加,以及每个处理对象行为(如客户交易)的迅速增加,规模成爆炸式增长。为此,传统数据仓库定义了拉链表结构,记录一个对象从开始到当前状态的所有变化的信息。其中,对于对象的某个状态,用开始时间(begin date)和结束时间(end date)确定该状态的持续时间;对于当前状态,记录开始时间,并设定结束时间为一个预设的最大时间(如9999-12-31),这种状态称为开链;对于过去状态,则记录开始时间和结束时间,称为闭链。这样,通过保留一份全量数据,只对每天有状态变化的对象及时闭链和生成当前状态的开链数据作为增量数据,避免了按每天都记录所有对象状态造成的海量存储的问题。
采用拉链表结构生成全量日志数据和增量日志数据的存储方式的代价是增加了查询处理的复杂性。传统数据仓库依托于并行关系数据库引擎实现,虽然易于用户操作和使用,但关系数据模型固有的锁、事务、完整性验证等强结构性特征制约了面向大规模数据的并行处理能力,并且受制于昂贵的软硬件设施,数据的存储和处理成本较高。
针对此挑战,当前新兴的以MapReduce为代表的大数据处理技术采用大量廉价、低端服务器的搭建,通过横向扩展的无共享架构提升整体性能,能够达到接近线性的伸缩能力。但是,MapReduce缺乏类似SQL的描述式语义,开发人员需要自行实现算法细节,并考虑查询优化、负载均衡、数据归并和排序方式等问题。
因此,如何利用新兴的数据处理技术,提高对面向大数据的日志数据进行处理的效率、降低数据处理成本,是需要解决的问题。
发明内容
本发明所要解决的技术问题是提供一种数据的并行处理方法和系统,能够提高大规模日志数据的处理效率,保障数据处理的可扩展性。
为了解决上述技术问题,本发明提供了一种数据的并行处理方法,该方法包括:
一个或多个Map节点读取账户日志数据的分片数据,从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录,生成所选出的候选数据记录的第一输出参数和第二输出参数;其中,所述候选数据记录的第一输出参数至少包括账户ID,所述第二输出参数设定为账户状态信息,所述账户状态信息至少包括:状态开始日、状态结束日和状态值;
一个或多个Reduce节点读取所述Map节点处理完毕的不同候选数据记录,根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录;其中,第一输出参数中账户ID相同的候选数据记录由同一个Reduce节点读取。
进一步地,该方法还包括下述特点:
在一个或多个Map节点读取账户日志数据的分片数据之前,还包括:
将全量日志数据和截止到查询日期终止日当天的增量日志数据确定为账户日志数据的读取范围;
将属于该读取范围内的账户日志数据分片,建立每一个分片与各Map节点的映射关系;其中,所述映射关系用于供所述Map节点根据所述映射关系读取对应的分片数据。
进一步地,该方法还包括下述特点:
从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录,包括:
如查询日期是单日,则从读取的分片数据中选出状态开始日小于或等于所述查询日期且状态结束日大于所述查询日期的数据作为候选数据记录。
进一步地,该方法还包括下述特点:
根据所述候选数据记录的第一输出参数和第二输出参数分别生成各账户在所述查询日期范围内的完整历史状态记录,包括:
如查询日期是单日,则根据所述候选数据记录的第一输出参数遍历同一个账户的候选数据记录,将第二输出参数中状态开始日最晚的候选数据记录作为最终的查询结果进行输出。
进一步地,该方法还包括下述特点:
从读取的分片数据中选出状态持续时间满足查询日期要求的候选数据记录,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410307198.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





