[发明专利]访问日志解析规则生成方法及装置、日志解析方法及系统在审
| 申请号: | 201910315553.9 | 申请日: | 2019-04-19 |
| 公开(公告)号: | CN110321457A | 公开(公告)日: | 2019-10-11 |
| 发明(设计)人: | 沙章利 | 申请(专利权)人: | 杭州玳数科技有限公司 |
| 主分类号: | G06F16/84 | 分类号: | G06F16/84;H04L29/08 |
| 代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 刘松 |
| 地址: | 310030 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 解析规则 访问日志 日志 样本 预设规则 日志解析 字段 字段分隔符 字段映射 匹配 自动化 主流 配置 分析 | ||
1.一种访问日志解析规则生成方法,其特征在于,包括:
获取样本日志;
对所述样本日志进行分析,获取所述样本日志的字段分隔符;
将所述样本日志按照预设规则进行字段拆分;
使用web正则库对所述样本日志中的各个字段进行正则匹配,得到所述预设规则的正则序列;
从所述预设规则的正则序列中选取最大出现的正则序列;
根据web服务器类型对所述最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取验证样本日志,根据所述验证样本日志对所述web服务器访问日志解析规则进行验证,如果验证通过,则对所述web服务器访问日志解析规则进行存储;
所述获取所述样本日志的字段分隔符包括:
排除预设字符后,选取出现频率最大的字符作为所述样本日志的字段分隔符;
所述使用web正则库对所述样本日志中的各个字段进行正则匹配,得到所述预设规则的正则序列包括:使用所述web正则库对所述样本日志中的各个字段依次进行正则匹配,获取多种匹配结果,选取最长匹配结果作为所述预设规则的正则序列。
3.根据权利要求1所述的方法,其特征在于,所述根据web服务器类型对所述最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则包括:
确定所述web服务器访问日志的常见字段序列;
根据所述常见字段序列和字段映射,变更字段名称,对无法正则匹配的字段进行标识;
保存变更后的字段名称和无法正则匹配的字段的标识。
4.一种日志解析方法,其特征在于,包括:
采集web服务器访问日志;
配置访问日志字段序列和字段映射;
按照如权利要求1至3任一项所述的方法生成web服务器访问日志解析规则;
根据所述web服务器访问日志解析规则对采集到的所述web服务器访问日志进行实时解析,得到解析结果,显示所述解析结果。
5.一种访问日志解析规则生成装置,其特征在于,包括:
获取模块,用于获取样本日志;
分析模块,用于对所述样本日志进行分析,获取所述样本日志的字段分隔符;
拆分模块,用于将所述样本日志按照预设规则进行字段拆分;
匹配模块,用于使用web正则库对所述样本日志中的各个字段进行正则匹配,得到所述预设规则的正则序列;
选取模块,用于从所述预设规则的正则序列中选取最大出现的正则序列;
生成模块,用于根据web服务器类型对所述最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则。
6.根据权利要求5所述的装置,其特征在于,还包括:
验证模块,用于获取验证样本日志,根据所述验证样本日志对所述web服务器访问日志解析规则进行验证,如果验证通过,则对所述web服务器访问日志解析规则进行存储。
7.根据权利要求5所述的装置,其特征在于,所述分析模块通过如下方式获取所述样本日志的字段分隔符:
所述分析模块,具体用于排除预设字符后,选取出现频率最大的字符作为所述样本日志的字段分隔符。
8.根据权利要求5所述的装置,其特征在于,所述匹配模块通过如下方式使用web正则库对所述样本日志中的各个字段进行正则匹配,得到所述预设规则的正则序列:
所述匹配模块,具体用于使用所述web正则库对所述样本日志中的各个字段依次进行正则匹配,获取多种匹配结果,选取最长匹配结果作为所述预设规则的正则序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司,未经杭州玳数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910315553.9/1.html,转载请声明来源钻瓜专利网。





