[发明专利]从URL中高效提取用户客户端ID的方法和系统在审

专利信息
申请号: 201710275446.9 申请日: 2017-04-25
公开(公告)号: CN107145542A 公开(公告)日: 2017-09-08
发明(设计)人: 欧阳涛 申请(专利权)人: 上海斐讯数据通信技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州千克知识产权代理有限公司33246 代理人: 周希良,吴辉辉
地址: 201616 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: url 高效 提取 用户 客户端 id 方法 系统
【说明书】:

技术领域

本发明属于计算机系统领域,尤其涉及一种从URL中高效提取用户客户端ID的方法和系统。

背景技术

随着Internet技术的飞速发展,运行于Internet上的各种应用和服务也随之大量涌现,大数据的时代已经来临。每个网站本身都是一个独立的信息系统,这些网站经过网络互联后,使得整个互联网变成了一个巨大的信息系统。客户在浏览网站的过程中会留下它们访问的痕迹,这些痕迹会以web日志文件的形式保存下来。各种系统、程序、运维、交易等得日志变得越来越重要,因为它是系统恢复、错误跟踪、安全检测等操作的重要依据。

由于数据源众多、各个系统的用户繁多、操作频繁,每日会产生TB级甚至PB级的海量web日志数据,而传统数据库由于可扩展性和处理性能的限制,已经不能满足现今动辄数十G、数百G、甚至上T的数据量的存储分析处理的要求。而在一大堆非结构化的日志文件里面,怎样快速检索出数据、怎样快速寻找到有用的数据、怎样对日志进行统计分析,成为亟待解决的问题。现有的大数据查询方法只能简单通过HBase直接进行行键的搜索和借助Hive的HQL进行检索,检索时延很大,数据分析结果也不准确,不能满足当前需求;且在大数据应用场景下,随着数据海量增加,直接利用本地计算大量用户访问的URL地址中客户端ID会消耗大量资源和内存,并且效率低下。

为了解决上述技术问题,人们进行了长期的探索,例如中国专利公开了一种海量web日志数据查询与分析方法[申请号:CN201410596395.6],包括如下步骤:步骤1,用Hive中的ETL对各个数据源的数据进行解析,解析过程包括提取、清洗、转化和加载四个步骤,在对数据进行清洗时,将其中的有用信息用MapReduce程序进行分布式抽取处理;步骤2,将抽取出来的数据装载进数据仓库中;步骤3,Hive的部件Driver接收HiveQL语句;步骤4,针对倾斜数据对接受语句进行优化,进行表连接操作后得到初步的map结果;步骤5,将接收到的HiveQL语句转换成MapReduce任务执行并存储查询结果;步骤6,对于海量的web日志数据进行数据分割;步骤7,应用高度并行的全局随机化搜索的遗传算法对数据进行分析挖掘;步骤8,将数据查询与分析部分得出的数据装载进Mysql数据库中。

上述方案实现了大数据的数据挖掘,提高数据分析结果的准确度,但是仍然存在不足,例如:1.上述方案只能了解到web的情况,无法对客户端的ID进行抽取;2.分布式系统的各台机器之间没法进行流量调配,导致负载不均衡。

发明内容

本发明的目的是针对上述问题,提供一种高效提取客户端ID的从URL中高效提取用户客户端ID的方法;

本发明的另一目的是针对上述问题,提供一种基于从URL中高效提取用户客户端ID的方法的系统。

为达到上述目的,本发明采用了下列技术方案:

从URL中高效提取用户客户端ID的方法包括如下步骤:

S1:通过日志文件收集单元收集日志文件的数据并存入文件池;

S2:通过Hive中的ETL对步骤S1中收集到的数据进行预处理,并将预处理好的数据收集到Hadoop集群中以将数据进行结构化处理;

S3:通过hive的UDF功能与从URL中提取客户端ID的功能相结合以提取客户端ID。

通过上述技术方案,将hive的UDF自适应开发功能与从URL中提取客户端ID的功能的结合,实现用户客户端ID的高效提取。

在上述的从URL中高效提取用户客户端ID的方法中,在步骤S1中,所述的日志收集单元为能够对分布式的海量日志文件进行采集、聚合和传输的Flume系统。

在上述的从URL中高效提取用户客户端ID的方法中,在步骤S2中,通过以下方法将数据结构化处理:

通过hive建立数据文件的表结构,并通过Mysql将hive和hdfs进行建表关联以将数据结构化处理。

在上述的从URL中高效提取用户客户端ID的方法中,在步骤S2中,所述的ETL的程序部署于Hadoop集群中,且ETL的程序包括能够对数据进行清洗、合并、上传、高压缩编码和分布式提取的一系列程序。

在上述的从URL中高效提取用户客户端ID的方法中,所述Hadoop的分布式系统通过以下方法构建:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710275446.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top