[发明专利]日志管理方法在审
| 申请号: | 201410409927.0 | 申请日: | 2014-08-19 |
| 公开(公告)号: | CN104182506A | 公开(公告)日: | 2014-12-03 |
| 发明(设计)人: | 刘璧怡;郭美思;吴楠 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;李丹 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 日志 管理 方法 | ||
技术领域
本发明涉及计算机应用领域,尤其涉及一种日志管理方法。
背景技术
随着互联网的急速发展,互联网用户量也急剧增长,用户的访问日志也得到迅速的膨胀。对于互联网来说,web日志是非常重要的信息。特别是对于一些大型的电子商务网站或者社交网站,可以通过对web日志的挖掘,找出用户的潜在访问模式,从而设计出更便于用户访问的网页组织模式。然而如何在这些海量的日志中挖掘出对企业有用的信息,并依此来做出正确的决策是非常重要的工作。由于Web日志是由众多用户生成的,它具有数据源多样性、海量性、传输条件不确定性等特点,而完整的日志是对后面分析工作的保证。从收集日志到日志分析是一项非常复杂的工作,它不仅要求有较高的可靠性,还需要时效性。所以单台主机不管是在日志存储还是计算方面,尽管硬件配置很高,它的处理能力还是有限的。故采用分布式存储和计算己经成为了必然的发展趋势。
在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来,硬盘的存储量在快速的增加,但是硬盘的访问速度却不能与时俱进。当数据量非常大时,读取操作就会花费较长的时间。
发明内容
本发明提供了一种日志管理方法,解决了分布式存储管理日志数据的问题。
一种日志管理方法,包括:
收集流量日志和点击日志;
对收集得到的日志进行预处理;
分布式存储预处理后的日志。
优选的,收集流量日志和点击日志包括:
在用户打开web页面时,将所需要的信息拼成字符串传送给前端服务器,所述信息包括以下内容的任一或任意多项:
时间、客户端IP、用户信息、访问地址、refer地址。
优选的,对收集得到的日志进行预处理包括:
计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数;
将收集到的日志根据用户的UID信息与用户信息库进行连接,获取访问用户的用户信息,所述用户信息库保存有所有用户详细信息;
将收集到的流量日志转化为流量日志标准格式,将收集到的点击日志转化为点击日志标准格式。
优选的,分布式存储预处理后的日志包括:
对所述预处理后的日志进行块大小和副本数的配置;
向HDFS文件系统上传所述预处理后的日志,以LZO格式存储于所述HDFS文件系统中。
优选的,该方法还包括:
读取数据表的配置信息,按日志类型分别导入不同文件中;
对日志进行Map操作,将日志处理成key-value格式,得到Map结果;
对所述Map结果进行合并操作,得到合并结果;
对所述合并进行Reduce操作,得到数据分析结果,将该数据分析结果存放于所述HDFS文件系统中;
从所述HDFS文件系统中将所述数据分析结果导入数据库,供用户查询。
优选的,读取数据表的配置信息,按日志类型分别导入不同文件中包括:
从数据库中读取数据表的配置信息,所述配置信息包括列信息、指标的配置信息、维度和维度值;
将所述配置信息按日志类型分别导入不同文件中,并上传到HDFS中。
优选的,对日志进行Map操作,将日志处理成key-value格式,得到Map结果包括:
循环遍历每种日志类型的每一个指标;
根据预置的每一个指标的计算规则,选择适合的计算类型对日志进行,将志处理成key-value的格式,以该key-value格式的日志作为Map结果。
优选的,所述计算类型包括:
计数类型,将符合当前计算规则的日志格式化为key=日期+指标ID,value=l;
累加类型,将符合当前计算规则的日志处理为key=日期+指标ID,value=计算列的值;
分组计数类型,将符合当前计算规则的日志记录格式化为key=日期+指标ID+组ID,value=l。
分组累加类型,将符合当前计算规则的日志处理为key=日期+指标ID+组ID,value=计算列的值。
优选的,对所述Map结果进行合并操作,得到合并结果包括:
对Map结果进行合并至每一个key-value值只对应一条日志。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司;,未经浪潮(北京)电子信息产业有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410409927.0/2.html,转载请声明来源钻瓜专利网。





