[发明专利]一种分析网络访问日志的方法、系统、装置和存储介质在审

申请号：	201911009697.8	申请日：	2019-10-23
公开（公告）号：	CN110929107A	公开（公告）日：	2020-03-27
发明（设计）人：	张毅;符伟彬	申请（专利权）人：	广州艾媒数聚信息咨询股份有限公司
主分类号：	G06F16/903	分类号：	G06F16/903;G06F16/901
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	黎扬鹏
地址：	510006 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分析网络访问日志方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分析网络访问日志的方法、系统、装置和存储介质，其中方法包括以下步骤：获取日志记录中的url信息，根据url信息获取host字符串；采用倒序查询的字典树对host字符串进行轮询匹配，根据匹配结果获取对应的应用信息。本发明倒序查询的字典树对host字符串进行轮询匹配，避免了轮询正则匹配时的回溯问题，极大地提高了host部分的匹配速度，间接地提高了网络访问日志的分析速度，可广泛应用于计算机数据处理技术。

技术领域

本发明涉及计算机数据处理技术，尤其涉及一种分析网络访问日志的方法、系统、装置和存储介质。

背景技术

在hadoop的环境下，每天有大量的网络访问日志记录，日志记录了不同用户访问不同应用(包括网站和app等)的url、访问时间、ip及user-agent等信息，系统通过记录的目的是分析用户每个时间段访问了哪些应用，实现原理是根据用户访问的url、user-agent等特征，从而得到用户使用了什么应用，以及在应用里的操作。由于url等信息是字符串类型，每天的数据量较大，需要尽可能压缩信息，系统要将用户标记信息、命中的应用标记等进行编码。

要完成对用户访问的应用记录进行编号，现在主要方案有：1、直接利用hql使用正则命令去逐个匹配；2、使用MapReduce脚本。在大量应用需要匹配的情况下，第一种方案不可取，而第二种方案通常方法是逐个规则，使用java自带的正则类来轮循去匹配，加上匹配规则的多样性还有java的正则类使用时回溯的原因，匹配速度会不稳定。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能够稳定快速进行匹配的分析网络访问日志的方法、系统、装置和存储介质。

本发明所采用的第一技术方案是：

一种分析网络访问日志的方法，包括以下步骤：

获取日志记录中的url信息，根据url信息获取host字符串；

采用倒序查询的字典树对host字符串进行轮询匹配，根据匹配结果获取对应的应用信息。

进一步，所述获取日志记录中的url信息，根据url信息获取host字符串这一步骤，具体为：

通过运行MapReduce，以读取日志记录中的url信息，根据url信息获取host字符串。

进一步，所述采用倒序查询的字典树对host字符串进行匹配查询，根据匹配查询结果获取对应的应用信息这一步骤，具体包括以下步骤：

采用字典树从host字符串的尾部字母开始进行匹配查询；

根据预设的规则匹配配置文件识别到host字符串的标志后，从host字符串获得目的编号；

根据目的编号将host字符串发送至对应的匹配编号列表中进行轮询后，获得host字符串对应的应用信息。