[发明专利]日志分析方法和装置无效

专利信息
申请号: 201110439956.8 申请日: 2011-12-23
公开(公告)号: CN103178982A 公开(公告)日: 2013-06-26
发明(设计)人: 乔平;许玉勤 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: H04L12/24 分类号: H04L12/24
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 吴贵明;江舟
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 日志 分析 方法 装置
【说明书】:

技术领域

本申请涉及互联网通信领域,具体而言,涉及一种日志分析方法和装置。

背景技术

随着互联网信息服务的发展,许多企业、公司、政府机关和学校等都已经拥有或正在建成自己的网站。对于网站的管理,要求我们不仅要关注服务器每天的吞吐量,还要进一步了解网站各网页的访问情况,根据各网页的点击频率来改善网页的内容和质量,提高内容的可读性,因此,网站管理人员需要及时获知日志文件的分析结果。

目前,现有的点击流日志分析就是收集、整理、分析、统计网站的Web服务器日志,挖掘隐含在其内部的商业价值,并将描述用户行为的数据转换为决策者可以利用的有效信息,为网站经营者提供决策支持。而所谓点击流,就是访客在网站持续访问的点击轨迹,当访客浏览网页时,网站的Web服务器的日志文件会相应地记录该访客点击的信息。点击流与传统商业模式不同,在传统商业模式下,Web用户与网站信息提供者之间不存在直接的信息沟通和反馈渠道,例如,什么样的信息最受用户欢迎,网页内容增删对用户点击量有何影响,因此,网站的管理者无法根据网站各网页的访问情况来改善网页的内容和质量。

可见,现有的点击流日志分析虽然可以挖掘隐含在其内部的商业价值,为网站经营者提供决策支持,但是,上述点击流日志分析的日志解析粒度为按天分析,在随着上网人数的不断增加,网站的访问量从十万、百万级别上升到千万、上亿级别,web服务器的日志文件的数量也从几十MB上升到几十GB,甚至达到TB的数量级,相应地对日志文件的统计和分析的时间要求也越来越高,因此,按天分析的点击流日志分析可能存在一些缺点,例如:

1)从主机压力的角度来看,按天分析的主机CPU/IO/MEM压力、数据库压力都比较集中,不同场景下可能出现“忙的时候忙死,闲的时候闲死”的状态,不能实现将主机资源、数据库资源在一天中均衡地使用;

2)从数据时效的角度来看,随着业务的演变,数据的时效性已经不能仅仅满足于按天分析,比如,广告投放效果数据,如按天分析,数据则按天更新,分析结果也要基于一天的数据量才能分析得出,远远不能满足不同业务所要求的数据时效性;

3)从维护成本的角度来说,按天分析如果中间异常出错,则需要全量回滚重新处理,比如,日志下载失败,则需要重新处理一天全量数据,大大地增加了工作量,并且会引起数据延迟。

发明内容

本申请提供了一种日志分析方法和装置,以至少解决现有技术中的不能实时地分析日志文件以及系统资源使用不均衡的问题。

根据本申请的一个方面,提供了一种日志分析方法,其包括:采集网站日志服务器集群生成的日志文件;以预定的间隔周期对采集的日志文件进行以会话为单位的基于分布式的点击流日志分析,其中,间隔周期使得用于分析日志文件的系统的资源在一天中得到平均地使用;根据点击流日志分析得到的分析结果生成分析报告,其中,分析报告用于根据分析结果对与日志文件对应的网站结构进行相应的调整。

优选地,间隔周期为1小时。

优选地,以预定的间隔周期以会话为单位对采集的日志文件进行基于分布式的点击流日志分析的步骤包括:将采集的日志文件进行解码,从解码后的日志文件中去除错误日志与无效日志,并将去除了错误日志与无效日志之后的日志文件中的日志的日志格式转换成统一的日志格式;以会话为单位对转换成统一的日志格式的日志文件进行基于分布式的点击流日志分析,输出事实表的待入库文件。

优选地,将采集的日志文件进行解码的步骤包括:按行读取采集的日志文件中的日志;根据日志来源标识选择设定的字段分解规则对所读取的日志进行字段分解,去除不符合字段分解规则的错误日志;根据设定的过滤规则和字段的字段值从分解之后得到的日志文件中的日志中过滤出非人为访问引起的日志、公司内网访问的日志;根据设定的日志输出格式对过滤后的日志文件中的日志统一日志输出格式;根据设定的业务类型对输出的日志文件进行按业务分拣,不同业务的日志输出到不同的路径。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110439956.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top