[发明专利]一种实现大数据处理的方法及装置有效
| 申请号: | 201310646544.0 | 申请日: | 2013-12-04 |
| 公开(公告)号: | CN103617268B | 公开(公告)日: | 2017-01-18 |
| 发明(设计)人: | 王志军;廖慧 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 栗若木,白莹 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实现 数据处理 方法 装置 | ||
技术领域
本申请涉及大数据处理领域,尤指一种基于分布式系统基础架构hadoop的实现大数据处理的方法及装置。
背景技术
数字生活的不断发展,产生了体积激增的大量数据。目前许多行业的大数据采用分布式系统基础架构(hadoop)来进行处理,以实现对数据的整合和共享。hadoop虽然具有很强的可扩展性,但由于它高性能的设计也使hadoop的应用受到限制。以上网流量记录查询为例,在对存储在hadoop的大数据进行数据查询时,由于hadoop只支持分布式文件系统(HDFS)的流式文件读取,即对于查询结果只能从开始到结束进行顺序读取,这与在hadoop的外部环境进行数据查询时,可以实现对查询结果的跨页浏览有较大差距。另外hadoop对上网流量记录作条数统计时,由于HDFS的流式文件限制,统计速度很慢且增加了系统的负担。此外,过高频率的查询,也增加了系统开销。
由以上举例分析可知,目前通过hadoop内部环境,即在hadoop系统架构内,对大数据进行查询时,hadoop内部环境下的HDFS只支持流式方式读取文件,即应用程序每次在HDFS中读取文件的方式为从开始顺序到结尾,这使得在需要读取查询文件中间内容时的效率变低。另外,如果进行查询数据统计,速度很慢且增加了系统负担。如果查询频率过高,又会增加系统开销。总之,目前hadoop的HDFS对数据查询和显示的处理方法,影响了使用者对数据访问的使用,同时目前采用的方法影响了hadoop的工作性能。
发明内容
为了解决上述问题,本发明提供一种hadoop的大数据处理的方法,能够实现对大数据查询结果显示的跨页浏览,并在不影响大数据架构系统性能下提高查询统计效率。
为了达到本发明的目的,本申请提供一种实现大数据处理的方法,包括:
在分布式系统基础架构hadoop外部环境,利用预先设置的拆分策略拆分hadoop总查询任务;
按照拆分的hadoop查询任务,在hadoop的分布式存储系统中分别进行hadoop内部查询;
将各内部查询结果按照预先设置的存储策略存储在hadoop外部环境;
通过hadoop外部查询方式对存储信息进行统计并显示。
进一步地,拆分策略包括:根据时间分布、和/或,查询用户流量使用类型进行查询拆分。
进一步地,进行统计的方法包括:
对各拆分任务的内部查询结果的每一页进行查询统计,并将各拆分任务每一页内部查询结果的查询统计信息进行合并,得到相应拆分任务的统计信息;
将相应拆分任务的统计信息进行合并,得到总查询任务的统计结果。
进一步地,按照存储策略存储在hadoop外部环境包括:
将内部查询结果按照存储策略分为:常态数据和非常态数据;
按照常态数据和非常态数据进行分级存储,
当内部查询结果是常态数据,当常态数据量大于hadoop外部环境的内存容量时,根据内存容量,首先,曾经访问过的查询页面保存在内存中,再将内部查询结果部分存入内存;剩余常态数据存入hadoop外部环境的硬盘中;当常态数据量小于hadoop外部环境的内存容量时,将所有内部查询结果存储在内存中;
当内部查询结果为非常态数据,将内部查询结果全部存储在外部环境的硬盘中。
进一步地,该方法还包括:按照查询频率,设定删除周期以删除内部查询结果中的常态数据。
另一方面,本发明提供一种实现大数据处理的装置,设置于hadoop外部环境,包括:控制单元、任务拆分单元、分级存储单元、统计显示单元;其中,
控制单元,用于在接收到查询任务时,控制任务拆分单元进行任务拆分;控制分级存储单元对内部查询结果进行存储;控制统计显示单元对存储的内部查询结果进行统计及显示;
任务拆分单元,用于预先设置的拆分策略拆分hadoop总查询任务,发往hadoop内部进行数据查询;
分级存储单元,用于设置接收hadoop内部查询结果,按照存储策略存储在hadoop外部环境;
统计显示单元,用于通过查询指令对分级存储信息进行统计和显示。
进一步地,的拆分策略包括:根据时间分布、和/或,查询用户流量使用类型进行查询拆分。
进一步地,进行统计包括:
对各拆分任务的内部查询结果的每一页进行查询统计,并将各拆分任务每一页查询统计信息进行合并,得到相应拆分任务的统计信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310646544.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动菌类生产机械
- 下一篇:信息处理设备、程序、信息处理方法和信息处理系统





