[发明专利]从URL中高效提取用户客户端ID的方法和系统在审

申请号：	201710275446.9	申请日：	2017-04-25
公开（公告）号：	CN107145542A	公开（公告）日：	2017-09-08
发明（设计）人：	欧阳涛	申请（专利权）人：	上海斐讯数据通信技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州千克知识产权代理有限公司33246	代理人：	周希良,吴辉辉
地址：	201616 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	url 高效提取用户客户端 id 方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机系统领域，尤其涉及一种从URL中高效提取用户客户端ID的方法和系统。

背景技术

随着Internet技术的飞速发展，运行于Internet上的各种应用和服务也随之大量涌现，大数据的时代已经来临。每个网站本身都是一个独立的信息系统，这些网站经过网络互联后，使得整个互联网变成了一个巨大的信息系统。客户在浏览网站的过程中会留下它们访问的痕迹，这些痕迹会以web日志文件的形式保存下来。各种系统、程序、运维、交易等得日志变得越来越重要，因为它是系统恢复、错误跟踪、安全检测等操作的重要依据。

由于数据源众多、各个系统的用户繁多、操作频繁，每日会产生TB级甚至PB级的海量web日志数据，而传统数据库由于可扩展性和处理性能的限制，已经不能满足现今动辄数十G、数百G、甚至上T的数据量的存储分析处理的要求。而在一大堆非结构化的日志文件里面，怎样快速检索出数据、怎样快速寻找到有用的数据、怎样对日志进行统计分析，成为亟待解决的问题。现有的大数据查询方法只能简单通过HBase直接进行行键的搜索和借助Hive的HQL进行检索，检索时延很大，数据分析结果也不准确，不能满足当前需求；且在大数据应用场景下，随着数据海量增加，直接利用本地计算大量用户访问的URL地址中客户端ID会消耗大量资源和内存，并且效率低下。

为了解决上述技术问题，人们进行了长期的探索，例如中国专利公开了一种海量web日志数据查询与分析方法[申请号：CN201410596395.6]，包括如下步骤：步骤1，用Hive中的ETL对各个数据源的数据进行解析，解析过程包括提取、清洗、转化和加载四个步骤，在对数据进行清洗时，将其中的有用信息用MapReduce程序进行分布式抽取处理；步骤2，将抽取出来的数据装载进数据仓库中；步骤3，Hive的部件Driver接收HiveQL语句；步骤4，针对倾斜数据对接受语句进行优化，进行表连接操作后得到初步的map结果；步骤5，将接收到的HiveQL语句转换成MapReduce任务执行并存储查询结果；步骤6，对于海量的web日志数据进行数据分割；步骤7，应用高度并行的全局随机化搜索的遗传算法对数据进行分析挖掘；步骤8，将数据查询与分析部分得出的数据装载进Mysql数据库中。

上述方案实现了大数据的数据挖掘，提高数据分析结果的准确度，但是仍然存在不足，例如：1.上述方案只能了解到web的情况，无法对客户端的ID进行抽取；2.分布式系统的各台机器之间没法进行流量调配，导致负载不均衡。

发明内容

本发明的目的是针对上述问题，提供一种高效提取客户端ID的从URL中高效提取用户客户端ID的方法；

本发明的另一目的是针对上述问题，提供一种基于从URL中高效提取用户客户端ID的方法的系统。

为达到上述目的，本发明采用了下列技术方案：

从URL中高效提取用户客户端ID的方法包括如下步骤：

S1：通过日志文件收集单元收集日志文件的数据并存入文件池；

S2:通过Hive中的ETL对步骤S1中收集到的数据进行预处理，并将预处理好的数据收集到Hadoop集群中以将数据进行结构化处理；

S3：通过hive的UDF功能与从URL中提取客户端ID的功能相结合以提取客户端ID。

通过上述技术方案，将hive的UDF自适应开发功能与从URL中提取客户端ID的功能的结合，实现用户客户端ID的高效提取。

在上述的从URL中高效提取用户客户端ID的方法中，在步骤S1中，所述的日志收集单元为能够对分布式的海量日志文件进行采集、聚合和传输的Flume系统。

在上述的从URL中高效提取用户客户端ID的方法中，在步骤S2中，通过以下方法将数据结构化处理：