[发明专利]一种基于Hadoop的用户行为数据处理方法在审

专利信息
申请号: 201710191813.7 申请日: 2017-03-27
公开(公告)号: CN106951552A 公开(公告)日: 2017-07-14
发明(设计)人: 陈粤龙;陈敏俊;温亮生;张治中;赵瑞莉 申请(专利权)人: 重庆邮电大学;中移(杭州)信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同恒源知识产权代理有限公司11275 代理人: 赵荣之
地址: 400065 *** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 用户 行为 数据处理 方法
【说明书】:

技术领域

发明属于通信技术领域,涉及一种基于Hadoop的用户行为数据处理方法。

背景技术

随着4G网络的商用和广泛部署,移动通信业务已经正式全面进入移动互联网时代,飞速发展的移动网络带宽直接带来繁杂的应用和用户行为,而通信网络中的数据复杂度、信息量都随之迅速增长,导致数据处理的复杂度和运算量要求都随之有了更高的要求,传统数据库体系的数据处理能力受到了极大的挑战。而面对海量数据处理需求和更低的时延性限制要求,传统数据系统投入的CPU计算能力、内存响应和吞吐、网络带宽都有着巨大的基准,且在高安全性,多中心的发展趋势下面临诸多的瓶颈。大数据时代的到来使单节点的计算模式已经不能满足数据处理的需求,分布式数据处理与存储系统逐步成为大数据平台首选的架构,大数据技术成为了众相研究的热点。而Hadoop大数据平台主要基于静态数据文件的并行处理,虽然在海量数据吞吐、计算、存储方面有着极高的效率,但是实时性较差,属于高吞吐,高并发,高时延的架构,对于小文件的处理性能一直是其不可回避的问题,故针对一些实时性较高的数据处理和使用场景下无能为力。

目前还没有一种用于互联网用户实时数据和历史(离线)数据整合处理的方法,特别是能够适应运营商大数据发展的精细化运营方法。

发明内容

有鉴于此,本发明的目的在于提供一种基于Hadoop的用户行为数据处理方法,能够建立高效、精细化的用户行为数据业务体系。

为达到上述目的,本发明提供如下技术方案:

一种基于Hadoop的用户行为数据处理方法,所述方法包括:

将用户历史数据源导入到分布式文件系统HDFS中,以通过所述HDFS提供数据访问接口;其中,所述用户历史数据源包括国际移动用户识别码IMSI库、国际移动设备身份码IMEI库以及爬虫库中的至少一种;

基于所述用户历史数据源生成用户的历史行为数据表;

通过数据采集工具Flume收集用户的实时行为数据流,所述实时行为数据流包括用户实时上网日志以及用户互联网行为实时解析数据;

分布式订阅系统Kafka实时记录从所述Flume收集的数据,并作为消息缓冲组件为实时计算框架提供数据;

根据实时行为数据流的不同业务类型,运用实时计算框架Spark实时处理用户行为产生的实时数据,以生成用户的实时数据表;

运用所述IMSI库中的IMSI号关联用户的实时数据表和历史行为数据表,得到用户的行为数据宽表;

根据预设配置文件将所述用户的行为数据宽表输出并保存到HBase数据库中;

将查询系统Impala与HBase数据库整合,以向外部提供用户行为数据的查询入口。

进一步地,基于所述用户历史数据源生成用户的历史行为数据表包括:

通过所述IMSI库中的IMSI号关联所述用户的所有历史行为数据,并将所述用户的所有历史行为数据映射至数据仓库工具Hive中,以形成所述用户的历史行为数据表。

进一步地,在分布式订阅系统Kafka实时记录从所述Flume收集的数据之后,所述方法还包括:

判断待处理的数据是否已经缓冲到Kafka配置文件中;若是,将所述待处理的数据发送至所述实时计算框架Spark;若否,将所述到处理的数据反馈至所述分布式订阅系统Kafka。

进一步地,所述IMSI库、IMEI库以及爬虫库通过Sqoop从关系型数据库导入到HDFS中。

进一步地,所述用户的事实行为数据流中包括用户在移动终端的访问特性、搜索信息以及流量消耗对应的实时数据。

进一步地,得到用户的行为数据宽表包括:

基于不同的业务逻辑,运用Map/Reduce框架获得所有输入用户的实时数据表和历史行为数据表的输出值,以形成所述行为数据宽表;其中,一个IMSI号表征一个用户。

进一步地,所述HBase数据库中表的结构包括IMSI号与业务编号的组合以及用于存放用户具体业务信息的列。

本发明的有益效果在于:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;中移(杭州)信息技术有限公司,未经重庆邮电大学;中移(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710191813.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top