[发明专利]访问日志解析规则生成方法及装置、日志解析方法及系统在审
| 申请号: | 201910315553.9 | 申请日: | 2019-04-19 |
| 公开(公告)号: | CN110321457A | 公开(公告)日: | 2019-10-11 |
| 发明(设计)人: | 沙章利 | 申请(专利权)人: | 杭州玳数科技有限公司 |
| 主分类号: | G06F16/84 | 分类号: | G06F16/84;H04L29/08 |
| 代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 刘松 |
| 地址: | 310030 浙江省杭州市西湖区*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 解析规则 访问日志 日志 样本 预设规则 日志解析 字段 字段分隔符 字段映射 匹配 自动化 主流 配置 分析 | ||
本发明提供了一种访问日志解析规则生成方法及装置、日志解析方法及系统,其中,访问日志解析规则生成方法,包括:获取样本日志;对样本日志进行分析,获取样本日志的字段分隔符;将样本日志按照预设规则进行字段拆分;使用web正则库对样本日志中的各个字段进行正则匹配,得到预设规则的正则序列;从预设规则的正则序列中选取最大出现的正则序列;根据web服务器类型对最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则。由此使得配置简单,可以自动化生成解析规则,适用于主流web服务器访问日志,减少人为编写解析规则的负担。
技术领域
本发明涉及日志解析技术领域,尤其涉及一种访问日志解析规则生成方法及装置、日志解析方法及系统。
背景技术
随着互联网、移动互联网的发展和全球信息化程度的提高,成千上万的企业使用web服务器搭建网站或者应用对外提供互联网访问服务。web服务器通过访问日志记录了网站和应用被访问的时间、访问来源、访问结果等重要的用户数据,通过对访问日志的清洗和分析,可以为企业提供重要的用户行为数据,从而帮助企业剖析其提供的服务,进而改良服务,最终为企业带来更大的商业价值。
当前web服务器的多样化使得访问日志的数据清洗变得越来越复杂,企业需要投入专业的数据清洗人员编写数据清洗规则(解析规则或者解析正则),或者需要关心web服务器访问日志的生成规则。手写web服务数据解析规则存在以下3个问题:(1)需要投入专业技术人才完成编写,成本高;(2)人工书写解析规则容易犯错;(3)解析规则生成不可复用,新的web服务需要重新编写。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的访问日志解析规则生成方法及装置、日志解析方法及系统。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种访问日志解析规则生成方法,包括:获取样本日志;对样本日志进行分析,获取样本日志的字段分隔符;将样本日志按照预设规则进行字段拆分;使用web正则库对样本日志中的各个字段进行正则匹配,得到预设规则的正则序列;从预设规则的正则序列中选取最大出现的正则序列;根据web服务器类型对最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则。
其中,方法还包括:获取验证样本日志,根据验证样本日志对web服务器访问日志解析规则进行验证,如果验证通过,则对web服务器访问日志解析规则进行存储。
其中,获取样本日志的字段分隔符包括:排除预设字符后,选取出现频率最大的字符作为样本日志的字段分隔符。
其中,使用web正则库对样本日志中的各个字段进行正则匹配,得到预设规则的正则序列包括:使用web正则库对样本日志中的各个字段依次进行正则匹配,获取多种匹配结果,选取最长匹配结果作为预设规则的正则序列。
其中,根据web服务器类型对最大出现的正则序列进行字段映射,生成web服务器访问日志解析规则包括:确定web服务器访问日志的常见字段序列;根据常见字段序列和字段映射,变更字段名称,对无法正则匹配的字段进行标识;保存变更后的字段名称和无法正则匹配的字段的标识。
本发明另一方面提供了一种日志解析方法,包括:采集web服务器访问日志;配置访问日志字段序列和字段映射;按照上述方法生成web服务器访问日志解析规则;根据web服务器访问日志解析规则对采集到的web服务器访问日志进行实时解析,得到解析结果,显示解析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司,未经杭州玳数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910315553.9/2.html,转载请声明来源钻瓜专利网。





