[发明专利]从URL中高效提取用户客户端ID的方法和系统在审
申请号: | 201710275446.9 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107145542A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 欧阳涛 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 高效 提取 用户 客户端 id 方法 系统 | ||
1.一种从URL中高效提取用户客户端ID的方法,其特征在于,包括如下步骤:
S1:通过日志文件收集单元收集日志文件的数据并存入文件池;
S2:通过Hive中的ETL对步骤S1中收集到的数据进行预处理,并将预处理好的数据收集到Hadoop集群中以将数据进行结构化处理;
S3:通过hive的UDF功能与从URL中提取客户端ID的功能相结合以提取客户端ID。
2.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在步骤S1中,所述的日志收集单元为能够对分布式的海量日志文件进行采集、聚合和传输的Flume系统。
3.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在步骤S2中,通过以下方法将数据结构化处理:
通过hive建立数据文件的表结构,并通过Mysql将hive和hdfs进行建表关联以将数据结构化处理。
4.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在步骤S2中,所述的ETL的程序部署于Hadoop集群中,且ETL的程序包括能够对数据进行清洗、合并、上传、高压缩编码和分布式提取的一系列程序。
5.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,所述Hadoop的分布式系统通过以下方法构建:
搭建部署有至少一台主机和至少一台从机的Hadoop2.7.1的集群环境,对HIVE和HDFS的环境与配置进行配置,且将Hive Metastore、mysql和hiveserver2组建在一台主机上,并对Namenode HA和ResourceManager HA进行设置以构建分布式系统。
6.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在步骤S3中,通过以下方法将UDF功能与从URL中提取客户端ID的功能相结合:
S3-1:通过开发相对应的hive的对IP地址具有正常提取功能的UDF函数使hive具有UDF功能;
S3-2在本地连接Hadoop集群,并在完成基于hive的从URL中提取客户端ID的程序后,通过UDF函数编译完成与从URL中提取客户端ID的功能相结合。
7.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在分布式系统的各节点搭建有tomcat分布式集群,并利用Nginx对tomcat所在机器的流量进行调配。
8.根据权利要求1所述的从URL中高效提取用户客户端ID的方法,其特征在于,在步骤S3之后,还包括以下步骤:
在对提取的客户端ID结果输出后对结果进行进一步分析和/或生成报表。
9.根据权利要求8所述的从URL中高效提取用户客户端ID的方法,其特征在于,输出的结果通过可视化配置进行可视化显示,所述的可视化配置包括数据采集可视化、数据接入可视化、数据计算可视化和数据输出可视化中的任意一种或多种组合的配置。
10.一种基于权利要求1-9任意一项所述的从URL中高效提取用户客户端ID的方法的系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710275446.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于电缆接头保护装置的连接器
- 下一篇:一种新型护理拐杖