[发明专利]一种日志聚类处理方法及系统在审
申请号: | 202111028390.X | 申请日: | 2021-09-02 |
公开(公告)号: | CN113723542A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 周暐;钱飞扬;巩珊珊 | 申请(专利权)人: | 上海七牛信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/17;G06F16/18 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨松城 |
地址: | 201203 上海市浦东新区中*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 处理 方法 系统 | ||
1.一种日志聚类处理方法,其特征是,包括以下步骤:
S1:获取并切分日志数据;
S2:依次对每二条日志的相关性进行分析;
S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
S4:对各层聚类结果进行评价,获得聚类的最终评价结果。
2.如权利要求1所述的日志聚类处理方法,其特征是,步骤S1获取日志数据包括:
获取日志数据;
对日志数据进行清洗;
通过正则表达式将清洗后的日志数据进行结构化处理。
3.如权利要求1所述的日志聚类处理方法,其特征是,步骤S2中相关性分析,计算相关系数的公式为:
4.如权利要求1所述的日志聚类处理方法,其特征是,步骤S3对相关性强的日志数据进行聚类处理,获得各层聚类的结果,其步骤包括:
获得底层聚类;
在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;
其中,底层聚类的步骤包括:
在底层聚类前先设定相关系数的预设阈值;
根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,并将其第1条日志作为代表日志;
依次计算后续的日志与代表日志的相关系数,如果相关系数大于预设阈值,则继续归为一类,若小于预设阈值,则新建一类,直至全部计算完毕,获得底层聚类。
5.如权利要求1所述的日志聚类处理方法,其特征是,步骤S4中对聚类结果进行评价,其步骤包括:
获取聚类结果中每一层聚类中的类别数量NC、每一类中的日志总数Qi、类型相同且值相等的日志数量Valuei、类型相同且值不相等的日志数量Typei、两者均不相同的日志数量Nonei;
设置用户偏好的类别数量NP、类型相同且值相等的日志影响系数b1、类型相同且值不相等的日志影响系数b2、两者均不相同的日志影响系数b3;
计算每一层聚类分析的难度系数Difficulty,其公式为:
将Difficulty的值最小时对应的聚类层次作为最终推荐的聚类结果。
6.一种聚类处理装置,其特征在于,包括获取单元、日志分析单元、聚类单元、评价单元,其中:
获取单元用以获取并切分日志数据;
日志分析单元用以依次对每二条日志的相关性进行分析;
聚类单元用以对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
评价单元用以对各层聚类结果进行评价,获得聚类的最终评价结果。
7.如权利要求6所述的聚类处理装置、其特征在于,日志分析单元中对相关性分析的公式为:
8.如权利要求6所述的聚类处理装置、其特征在于,评价单元中,计算每一层聚类分析的难度系数Difficulty,其公式为:
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要1至5任一所述的日志聚类处理方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的日志聚类处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海七牛信息技术有限公司,未经上海七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111028390.X/1.html,转载请声明来源钻瓜专利网。