[发明专利]一种智能大数据处理方法和装置在审
申请号: | 201510073311.5 | 申请日: | 2015-02-11 |
公开(公告)号: | CN104598321A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 李克学;范莹;戴鸿君 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 数据处理 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种智能大数据处理方法和装置。
背景技术
随着计算机技术的不断发展,出现了大数据。大数据首先是指数据体量大,指代大型数据集,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;大数据其次是指数据类别大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
因此,如何对大数据进行处理,成为了一个亟待解决的问题。
发明内容
本发明提供了一种大数据的处理方法和装置,能够有效地对大数据进行处理。
一种智能大数据处理方法,包括:
形成存储大数据的包括多个计算机的计算机集群;
采集大数据;
以列式存储的方式,将采集到的大数据存储到LSM树中;
将各个LSM树分别存储到所述计算机集群中的各个计算机中。
优选地,应用于智能视觉监控系统,
进一步包括:预先设置基于LSM树的分布式存储表,该存储表以时间段的视频作为行健,目标的实时检测、目标分类、运动目标的跟踪过程、视频内容的分析分别作为列族;
所述以列式存储的方式将采集到的大数据存储到LSM树中包括:
将采集到的大数据,按照目标的实时检测、目标分类、运动目标的跟踪过程、视频内容的分析进行分类处理后,分别存储到所述分布式存储表中对应列族的LSM树中;在每一个列族中,将每一个LSM树中的数据写入内存中,当每一个LSM树达到预定大小后,将内存中的LSM树的数据溢出到磁盘中,并定期将磁盘中的LSM树合并成一棵新的LSM树。
所述将各个LSM树分别存储到所述计算机集群中的各个计算机中包括:将合并后的各个新的LSM树分别存储到所述计算机集群中的各个计算机中。
优选地,在所述将各个LSM树分别存储到所述计算机集群中的各个计算机中之后,进一步包括:
为所述计算机集群中的每一个计算机建立对应的任务;在接收到实际任务之后,将各个实际任务分发到所述计算机集群中对应的计算机中;各个实际任务从被分发到的计算机中存储的LSM树中实时读取或分析大数据。
其中,所述实际任务为mapreduce任务。
优选地,所述采集大数据包括:采集设定时间段内的智能视觉监控系统中的数据。
一种智能大数据的处理装置,包括:
形成单元,用于形成存储大数据的包括多个计算机的计算机集群;
采集单元,用于采集大数据;
LSM树处理单元,用于以列式存储的方式,将采集到的大数据存储到LSM树中;
集群处理单元,用于将各个LSM树分别存储到所述计算机集群中的各个计算机中。
其中,所述LSM树处理单元,进一步用于设置基于LSM树的分布式存储表,该存储表以时间段的视频作为行健,目标的实时检测、目标分类、运动目标的跟踪过程、视频内容的分析分别作为列族;将采集到的大数据,具体按照目标的实时检测、目标分类、运动目标的跟踪过程、视频内容的分析进行分类处理后,分别存储到所述分布式存储表中对应列族的LSM树中;在每一个列族中,将每一个LSM树中的数据写入内存中,当每一个LSM树达到预定大小后,将内存中的LSM树的数据溢出到磁盘中,并定期将磁盘中的LSM树合并成一棵新的LSM树。
所述集群处理单元,具体是将合并后的各个新的LSM树分别存储到所述计算机集群中的各个计算机中。
优选地,所述集群处理单元,进一步用于为所述计算机集群中的每一个计算机建立对应的任务;在接收到实际任务之后,将各个实际任务分发到所述计算机集群中对应的计算机中;各个实际任务从被分发到的计算机中存储的LSM树中读取大数据。
本发明实施例提供的智能大数据处理方法和装置,能够将大数据分布存储到计算机集群中的多个计算机中,而不是集中存储到一台计算机中;并且,存储的时候,以列式存储的方式存储到LSM中,而不是直接存储到数据库中,因此,解决了大数据的存储问题。
另外,在本发明的实施例中,基于分布式集群计算机存储方式及LSM树的存储方式,能够实现大数据的实时存储,避免数据量过大造成的存储困难问题。
在本发明的实施例中,可以分发任务到计算机集群中的各个计算机,在任务为获取大数据时,所获取的大数据是从集群中的各个计算机的LSM树中实时获取的。因此,实现了实时获取大数据的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司;,未经浪潮集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510073311.5/2.html,转载请声明来源钻瓜专利网。