[发明专利]一种基于Hadoop的海量数据处理方法和装置在审
申请号: | 201511009913.0 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105512336A | 公开(公告)日: | 2016-04-20 |
发明(设计)人: | 王明龙;王力;彭塨烨;谢潇宇;王伟;包辰明;赵金鑫;张舜华;陈暑生 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 温旭;郝传鑫 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 海量 数据处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,更为具体而言,涉及一种海量数据处理方法 和装置。
背景技术
电子商务网站相关数据处理中,通常将各个业务主库、访问日志、流水 日志等异步、离散的数据统一处理,实现定期地对业务流量、访问量、用户、 产品等体系指标的准实时和近期监控。如今,随着电子商务的快速发展,网 站产生的数据呈爆炸式增长,如何快速高效地存储和处理海量数据成为人们 面临的重要技术问题。
当前主要采用关系型的数据库对海量数据进行处理,然而传统的关系型 数据库都存在对数据库事务一致性要求的问题,而在数据挖掘或者数据分析 过程中,并不需要严格要求数据库事务特性和读一致性。因此,基于关系型 的数据库中的事务处理对于用来进行数据计算和数据挖掘而言是一个沉重的 负担。因此,设计一套适用数据计算和挖掘的海量数据处理方案成为亟需解 决的技术问题。
发明内容
为解决上述技术问题,本发明提供了一种基于Hadoop的海量数据处理方 法和装置。
根据本发明实施方式的第一方面,提供了一种基于Hadoop的海量数据处 理方法,该方法可包括:采集数据;将所采集的数据进行整合,将整合后的 数据存入Hbase数据库,根据所述Hbase数据库中数据的更新周期分别进行指 标统计,把指标统计的结果存入关系型数据库。
在本发明的一些实施方式中,所述采集数据包括:在前端页面嵌入 javascript脚本和rsyslog异步日志采集日志数据,和/或,通过rsync同步采集应 用服务器的业务数据。
在本发明的一些实施方式中,所述将所采集的数据进行整合是基于Flume NG框架。
在本发明的一些实施方式中,所述采集的数据在FlumeNG框架中以文件 类型的队列进行缓存。
在本发明的一些实施方式中,所述方法还包括:将所述指标统计的结果 保存为定期快照文件,并通过BDE将所述定期快照文件向外提供。
在本发明的一些实施方式中,所述方法还包括:接收用户输入的查询条 件,并根据所述查询条件访问所述关系型数据库来获取所述指标统计的结果, 然后将所述指标统计的结果向所述用户展示。
根据本发明实施方式的第二方面,提供了一种基于Hadoop的海量数据处 理装置,该装置可包括:采集模块,用于采集数据;整合模块,用于将所述 采集模块所采集的数据进行整合;存储模块,用于将所述整合模块整合后的 数据存入Hbase数据库,加工模块,用于根据所述Hbase数据库中数据的更新 周期分别进行指标统计,其中,所述存储模块,还用于将所述加工模块的指 标统计的结果存入关系型数据库。
在本发明的一些实施方式中,所述采集模块采集数据包括:在前端页面 嵌入javascript脚本和rsyslog异步日志采集日志数据,和/或,通过rsync同步采 集应用服务器的业务数据。
在本发明的一些实施方式中,所述整合模块是基于FlumeNG框架。
在本发明的一些实施方式中,所述整合模块在FlumeNG框架中以文件类 型的队列进行缓存。
在本发明的一些实施方式中,所述加工模块,还用于将所述指标统计的 结果保存为定期快照文件,并通过BDE将所述定期快照文件向外提供。
在本发明的一些实施方式中,所述装置还包括:展现模块,用于接收用 户输入的查询条件,并根据所述查询条件访问所述关系型数据库获取所述指 标统计的结果,然后将所述指标统计的结果向所述用户展示。
本发明实施方式提供的基于Hadoop的海量数据处理方法和装置,将采集、 整合后的海量数据和将海量数据加工获得的统计结果分别存储到不同类型的 数据库,改善了海量数据的数据库管理效率的同时也方便了海量数据统计结 果的查询和展示;而且将不同更新周期的数据通过快照的形式对外统一供数, 统一了对外供数频率,方便海量数据的数据分析和挖掘。
附图说明
图1是根据本发明一种实施方式的基于Hadoop的海量数据处理方法的流 程示意图;
图2是根据本发明一种实施方式的基于Hadoop的海量数据处理的架构示 意图;
图3是根据本发明一种实施方式的基于Hadoop的海量数据处理装置的结 构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511009913.0/2.html,转载请声明来源钻瓜专利网。