[发明专利]从URL中高效提取用户客户端ID的方法和系统在审
申请号: | 201710275446.9 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107145542A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 欧阳涛 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 高效 提取 用户 客户端 id 方法 系统 | ||
技术领域
本发明属于计算机系统领域,尤其涉及一种从URL中高效提取用户客户端ID的方法和系统。
背景技术
随着Internet技术的飞速发展,运行于Internet上的各种应用和服务也随之大量涌现,大数据的时代已经来临。每个网站本身都是一个独立的信息系统,这些网站经过网络互联后,使得整个互联网变成了一个巨大的信息系统。客户在浏览网站的过程中会留下它们访问的痕迹,这些痕迹会以web日志文件的形式保存下来。各种系统、程序、运维、交易等得日志变得越来越重要,因为它是系统恢复、错误跟踪、安全检测等操作的重要依据。
由于数据源众多、各个系统的用户繁多、操作频繁,每日会产生TB级甚至PB级的海量web日志数据,而传统数据库由于可扩展性和处理性能的限制,已经不能满足现今动辄数十G、数百G、甚至上T的数据量的存储分析处理的要求。而在一大堆非结构化的日志文件里面,怎样快速检索出数据、怎样快速寻找到有用的数据、怎样对日志进行统计分析,成为亟待解决的问题。现有的大数据查询方法只能简单通过HBase直接进行行键的搜索和借助Hive的HQL进行检索,检索时延很大,数据分析结果也不准确,不能满足当前需求;且在大数据应用场景下,随着数据海量增加,直接利用本地计算大量用户访问的URL地址中客户端ID会消耗大量资源和内存,并且效率低下。
为了解决上述技术问题,人们进行了长期的探索,例如中国专利公开了一种海量web日志数据查询与分析方法[申请号:CN201410596395.6],包括如下步骤:步骤1,用Hive中的ETL对各个数据源的数据进行解析,解析过程包括提取、清洗、转化和加载四个步骤,在对数据进行清洗时,将其中的有用信息用MapReduce程序进行分布式抽取处理;步骤2,将抽取出来的数据装载进数据仓库中;步骤3,Hive的部件Driver接收HiveQL语句;步骤4,针对倾斜数据对接受语句进行优化,进行表连接操作后得到初步的map结果;步骤5,将接收到的HiveQL语句转换成MapReduce任务执行并存储查询结果;步骤6,对于海量的web日志数据进行数据分割;步骤7,应用高度并行的全局随机化搜索的遗传算法对数据进行分析挖掘;步骤8,将数据查询与分析部分得出的数据装载进Mysql数据库中。
上述方案实现了大数据的数据挖掘,提高数据分析结果的准确度,但是仍然存在不足,例如:1.上述方案只能了解到web的情况,无法对客户端的ID进行抽取;2.分布式系统的各台机器之间没法进行流量调配,导致负载不均衡。
发明内容
本发明的目的是针对上述问题,提供一种高效提取客户端ID的从URL中高效提取用户客户端ID的方法;
本发明的另一目的是针对上述问题,提供一种基于从URL中高效提取用户客户端ID的方法的系统。
为达到上述目的,本发明采用了下列技术方案:
从URL中高效提取用户客户端ID的方法包括如下步骤:
S1:通过日志文件收集单元收集日志文件的数据并存入文件池;
S2:通过Hive中的ETL对步骤S1中收集到的数据进行预处理,并将预处理好的数据收集到Hadoop集群中以将数据进行结构化处理;
S3:通过hive的UDF功能与从URL中提取客户端ID的功能相结合以提取客户端ID。
通过上述技术方案,将hive的UDF自适应开发功能与从URL中提取客户端ID的功能的结合,实现用户客户端ID的高效提取。
在上述的从URL中高效提取用户客户端ID的方法中,在步骤S1中,所述的日志收集单元为能够对分布式的海量日志文件进行采集、聚合和传输的Flume系统。
在上述的从URL中高效提取用户客户端ID的方法中,在步骤S2中,通过以下方法将数据结构化处理:
通过hive建立数据文件的表结构,并通过Mysql将hive和hdfs进行建表关联以将数据结构化处理。
在上述的从URL中高效提取用户客户端ID的方法中,在步骤S2中,所述的ETL的程序部署于Hadoop集群中,且ETL的程序包括能够对数据进行清洗、合并、上传、高压缩编码和分布式提取的一系列程序。
在上述的从URL中高效提取用户客户端ID的方法中,所述Hadoop的分布式系统通过以下方法构建:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710275446.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于电缆接头保护装置的连接器
- 下一篇:一种新型护理拐杖