[发明专利]基于spark大数据平台的日志信息类型提取方法、挖掘方法有效

申请号：	202011560919.8	申请日：	2020-12-25
公开（公告）号：	CN112632020B	公开（公告）日：	2022-03-18
发明（设计）人：	王红伟;文占婷;刘恕涛;薛彬彬;岳桂华;陈锦;王禹;成林	申请（专利权）人：	中国电子科技集团公司第三十研究所;中国信息安全测评中心
主分类号：	G06F16/18	分类号：	G06F16/18;G06F16/182;G06F16/172
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	吕玲
地址：	610000 ***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 spark 数据平台日志信息类型提取方法挖掘
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于spark大数据平台的日志信息类型提取方法，其特征在于，包括：

步骤S1，预处理离线日志数据，过滤掉不能识别的日志条目，过滤后的日志数据存入HDFS中；

步骤S2，将常规变量替换为通配符，同时对日志条目进行规整处理，完成简单的通配化处理，并将通配化处理后的数据临时存入HDFS中；

步骤S3，将通配化处理后的数据根据时间窗进行过滤，将日志数据过滤拆分成有效日志集合和无效日志集合，去重后临时存入HDFS中；

步骤S4，针对步骤S3得到的有效日志集合和无效日志集合，将日志集合转换成以日志信息为元素的一维数组，根据数组长度相同的一维数组结合形成二维数组，并进行特征位置分割，再将二维数组合并成一维数组，形成完整的日志消息类型，最终结果存入HDFS中；

所述步骤S3中根据时间窗进行过滤的方法为：

步骤S31，从通配化处理后临时存入HDFS的数据中取出数据，记为C；

步骤S32，设置时间戳T，第一次执行取基础时间戳T＝t1，将取出的日志数据C根据日志头部的时间按照T进行分割，形成多个集合时间小于等于T的时间窗日志集合其中C_i表示第i个集合，K为分割的集合数量,集合时间是指日志集合C_i中最晚日志时间与最早日志时间之差；

步骤S33，取日志条数最大的日志集合中的每条日志，如果某条日志在所有的日志集合中，则认为该条日志为无效日志，将该无效日志存入临时的无效日志集合C_invalid中，同时在原日志集合中删除；

步骤S34，重新取时间戳T＝t1*(2^N)，其中N为循环执行次数，重复执行步骤S32-S33，如果T大于取出数据C的最早日志时间T_min和最晚日志时间T_max之差则退出循环，将剩下的日志数据存入临时的有效日志集合C_valid。

2.如权利要求1所述的基于spark大数据平台的日志信息类型提取方法，其特征在于，所述步骤S1中的过滤方式采用以下方法：将日志数据的每条日志的头部信息进行时间的正则匹配，匹配成功则放入HDFS中。

3.如权利要求1所述的基于spark大数据平台的日志信息类型提取方法，其特征在于，所述步骤S31中，从通配化处理后临时存入HDFS的数据中取出数据时，取出一天或者几天或者全部数据。

4.如权利要求1所述的基于spark大数据平台的日志信息类型提取方法，其特征在于，所述步骤S33中，如果日志数据C起止不完整，第一个日志集合C1和最后一个日志集合C_k集合时间小于T，则排除第一个日志集合C₁和最后一个日志集合C_k。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十研究所;中国信息安全测评中心，未经中国电子科技集团公司第三十研究所;中国信息安全测评中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011560919.8/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载