[发明专利]一种分析网络访问日志的方法、系统、装置和存储介质在审
申请号: | 201911009697.8 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110929107A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 张毅;符伟彬 | 申请(专利权)人: | 广州艾媒数聚信息咨询股份有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分析 网络 访问 日志 方法 系统 装置 存储 介质 | ||
本发明公开了一种分析网络访问日志的方法、系统、装置和存储介质,其中方法包括以下步骤:获取日志记录中的url信息,根据url信息获取host字符串;采用倒序查询的字典树对host字符串进行轮询匹配,根据匹配结果获取对应的应用信息。本发明倒序查询的字典树对host字符串进行轮询匹配,避免了轮询正则匹配时的回溯问题,极大地提高了host部分的匹配速度,间接地提高了网络访问日志的分析速度,可广泛应用于计算机数据处理技术。
技术领域
本发明涉及计算机数据处理技术,尤其涉及一种分析网络访问日志的方法、系统、装置和存储介质。
背景技术
在hadoop的环境下,每天有大量的网络访问日志记录,日志记录了不同用户访问不同应用(包括网站和app等)的url、访问时间、ip及user-agent等信息,系统通过记录的目的是分析用户每个时间段访问了哪些应用,实现原理是根据用户访问的url、user-agent等特征,从而得到用户使用了什么应用,以及在应用里的操作。由于url等信息是字符串类型,每天的数据量较大,需要尽可能压缩信息,系统要将用户标记信息、命中的应用标记等进行编码。
要完成对用户访问的应用记录进行编号,现在主要方案有:1、直接利用hql使用正则命令去逐个匹配;2、使用MapReduce脚本。在大量应用需要匹配的情况下,第一种方案不可取,而第二种方案通常方法是逐个规则,使用java自带的正则类来轮循去匹配,加上匹配规则的多样性还有java的正则类使用时回溯的原因,匹配速度会不稳定。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能够稳定快速进行匹配的分析网络访问日志的方法、系统、装置和存储介质。
本发明所采用的第一技术方案是:
一种分析网络访问日志的方法,包括以下步骤:
获取日志记录中的url信息,根据url信息获取host字符串;
采用倒序查询的字典树对host字符串进行轮询匹配,根据匹配结果获取对应的应用信息。
进一步,所述获取日志记录中的url信息,根据url信息获取host字符串这一步骤,具体为:
通过运行MapReduce,以读取日志记录中的url信息,根据url信息获取host字符串。
进一步,所述采用倒序查询的字典树对host字符串进行匹配查询,根据匹配查询结果获取对应的应用信息这一步骤,具体包括以下步骤:
采用字典树从host字符串的尾部字母开始进行匹配查询;
根据预设的规则匹配配置文件识别到host字符串的标志后,从host字符串获得目的编号;
根据目的编号将host字符串发送至对应的匹配编号列表中进行轮询后,获得host字符串对应的应用信息。
进一步,所述字典树的数据结构包括子节点数组。
进一步,所述url信息还包括uri路径特征、请求参数特征和user-agent特征。
本发明所采用的第二技术方案是:
一种分析网络访问日志的系统,包括:
特征获取模块,用于获取日志记录中的url信息,根据url信息获取host字符串;
匹配查询模块,用于采用倒序查询的字典树对host字符串进行轮询匹配,根据匹配结果获取对应的应用信息。
进一步,所述特征获取模块具体用于通过运行MapReduce,以读取日志记录中的url信息,根据url信息获取host字符串。
进一步,所述匹配查询模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州艾媒数聚信息咨询股份有限公司,未经广州艾媒数聚信息咨询股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911009697.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塑料薄膜包覆设备
- 下一篇:基于UVC协议的人脸识别方法及装置