[发明专利]一种基于大数据运营分析的数据处理方法有效

申请号：	201711053343.4	申请日：	2017-11-01
公开（公告）号：	CN107908690B	公开（公告）日：	2021-07-20
发明（设计）人：	石光捷;付飞龙;方勇;刘东升;项炤赟	申请（专利权）人：	南京欣网互联网络科技有限公司
主分类号：	G06F16/14	分类号：	G06F16/14;G06F16/18;G06F16/182;G06F16/172;G06F16/16;G06F16/13;G06F9/54
代理公司：	南京源古知识产权代理事务所(普通合伙) 32300	代理人：	马晓辉
地址：	210000 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据运营分析数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于大数据运营分析的数据处理方法，将平台需要数据通过动画与图表的形式展现给平台的运营人员，其特征在于：

包括以下步骤：

步骤一：采集源数据信息：所述源数据信息包括插码日志、业务日志、基本信息数据和规则引擎；通过规则引擎，读取数据信息，找到对应位置文件，启动Flume系统进行数据采集；

步骤二：数据分类：将步骤一中采集到的数据根据类型的不同，生成对应的Flume系统的Source或channel或sink配置文件，并将生成的Source或channel或sink配置文件分配到Flume系统不同Agent中；

步骤三：清洗数据：Flume系统的各个Agent根据配置文件启动并进行数据采集；在采集过程中，Agent根据规则引擎中的预设的清洗规则，利用Interceptor对数据内容进行清洗；

步骤四：对清洗后的数据分类：对在步骤三中清洗好的数据判断数据类型为实时计算数据还是非实时计算数据；如果为实时计算数据，将清洗好的数据导入Kafka系统中进行分析消费，如果为非实时数据将清洗好的数据导入到Hdfs里创建好的文件目录中；

步骤五：在上述步骤三中的HDFS目录根据预设的建表规则建立Hive外部表；将HDFS目录中的日志内容发送到离线数据处理系统中分析HDFS目录中的数据，并把最终处理结果保存到结果集中；

步骤六：在上述步骤四中的Kafka系统中，根据预设的业务要求实时分析Kafka相应Topic的数据，实时分析消费Kafka中相应Topic的数据，处理结果存放到结果集中；

步骤七：将所述结果集中的数据发送到门户网站、大屏；展示出的形式为：用户可配置页面展示样式或/和图标样式。

2.根据权利要求1所述的一种基于大数据运营分析的数据处理方法，其特征在于：在步骤四中非实时数据导入定义好的HDFS目录的方式为：利用Flume系统的HDFSSink将日志批量写入HDFS目录中存储并按照日期分子文件夹存储。

3.根据权利要求1所述的一种基于大数据运营分析的数据处理方法，其特征在于：所述规则引擎设置作业调度和数据格式规则来采集源数据信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京欣网互联网络科技有限公司，未经南京欣网互联网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711053343.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载