[发明专利]一种日志聚类处理方法及系统在审

专利信息
申请号: 202111028390.X 申请日: 2021-09-02
公开(公告)号: CN113723542A 公开(公告)日: 2021-11-30
发明(设计)人: 周暐;钱飞扬;巩珊珊 申请(专利权)人: 上海七牛信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06F16/17;G06F16/18
代理公司: 上海硕力知识产权代理事务所(普通合伙) 31251 代理人: 杨松城
地址: 201203 上海市浦东新区中*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 日志 处理 方法 系统
【说明书】:

发明公开一种日志聚类处理方法和系统,所述方法包括:获取并切分日志数据;依次对每二条日志的相关性进行分析;对相关性强的日志数据进行聚类处理,获得各层聚类的结果;对各层聚类结果进行评价,获得聚类的最终评价结果。本发明采取的技术方案,不仅仅对聚类层级进行适当的抽象,得到足够合理的聚类数量,也能够提高了聚类的准确性。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种日志聚类处理方法及系统。

背景技术

云计算的飞速发展,催生了大量的云平台的应用和服务,大量网络用户的信息都存储在各种各样的云平台上,随着用户的增加,各种云平台产生的日志数据也大规模的喷发,如何对这些海量的用户日志或者平台服务系统的日志进行分析和挖掘,是云平台所要面对和解决的技术问题之一。

聚类算法是目前解决这类海量日志的有效解决办法,对于日志行为的分析,目前主要的聚类算法主要有基于业务逻辑和先验知识,设计一些规则对日志进行聚类,还有一种是基于无监督学习的算法,对海量数据标签进行算法聚类。

基于不同的算法,或者不同的模型,或者设定不同的目标函数等等的差异,都会产生不同的聚类结果,每种聚类算法都有其特定的适用场景和优劣,没有一种万能的聚类算法是适合所有的场景和应用的。因此,如何评价哪种聚类结果是最佳或者最合适的的聚类,是目前业界需要解决的更深层技术问题。

发明内容

本发明为解决现有技术中存在的技术问题,提供一种日志聚类处理方法,包括以下步骤:

S1:获取并切分日志数据;

S2:依次对每二条日志的相关性进行分析;

S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;

S4:对各层聚类结果进行评价,获得聚类的最终评价结果。

进一步地,步骤S1获取日志数据包括:

获取日志数据;

对日志数据进行清洗;

通过正则表达式将清洗后的日志数据进行结构化处理。

进一步地,步骤S2中相关性分析,计算相关系数的公式为:

进一步地,步骤S3对相关性强的日志数据进行聚类处理,获得各层聚类的结果,其步骤包括:

获得底层聚类;

在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;

其中,底层聚类的步骤包括:

在底层聚类前先设定相关系数的预设阈值;

根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,并将其第1条日志作为代表日志;

依次计算后续的日志与代表日志的相关系数,如果相关系数大于预设阈值,则继续归为一类,若小于预设阈值,则新建一类,直至全部计算完毕,获得底层聚类。

进一步地,步骤S4中对聚类结果进行评价,其步骤包括:

获取聚类结果中每一层聚类中的类别数量NC、每一类中的日志总数Qi、类型相同且值相等的日志数量Valuei、类型相同且值不相等的日志数量Typei、两者均不相同的日志数量Nonei

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海七牛信息技术有限公司,未经上海七牛信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111028390.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top