[发明专利]一种数据中心日志缺失数据恢复方法有效
| 申请号: | 201910056129.7 | 申请日: | 2019-01-21 |
| 公开(公告)号: | CN109857593B | 公开(公告)日: | 2020-08-28 |
| 发明(设计)人: | 梁毅;毕临风;苏醒;苏超;陈金栋;丁治明 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F11/14 | 分类号: | G06F11/14 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据中心 日志 缺失 数据 恢复 方法 | ||
本发明公开一种数据中心日志中缺失数据的恢复方法,首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性,选取最优数据属性子集,并使用一个两阶段离散化步长优化算法对数据进行离散化优化;然后将选取的最优数据属性子集作为张量的属性,构建一个稀疏张量;最后使用基于张量分解的张量补全方法,对稀疏张量进行补全,得到一个稠密张量;将该稠密张量与原始不完整日志数据结合,得到一个完整的日志数据集。
技术领域
本发明属于数据中心日志分析领域,具体涉及一种数据中心日志中缺失数据的恢复方法。
背景技术
大规模数据中心是互联网及相关展业的信息化基础设施,为互联网业务的运营提供计算、存储和网络等软硬件资源。现代数据中心中普遍应用虚拟化技术、容器化技术以及服务器整合技术。在该背景下,数据中心往往多种计算框架共存,多种异质工作负载共存。数据中心在运行过程中会产生海量日志数据,包含数据中心服务器、负载的运行时信息。
数据中心日志分析是数据中心性能优化的重要手段之一。通过数据中心日志分析,数据中心管理者可以获取数据中心负载特征、资源使用模式等重要信息,进一步指导数据中心任务调度、资源管理、编程模型的优化工作。然而随着数据中心规模的不断增长,数据中心日志面临日渐严重的数据缺失问题。数据中心日志的数据缺失问题是日志中部分数据为空或失效数据,无法直接作为日志分析工作的输入。该问题出现的原因主要有两个:(一)在日志数据的获取阶段,监控系统中的Bug可能导致数据缺失。同时,由于监控系统进程通常被设置在较低的优先级,当机群负载较高时会被剥夺资源,进而导致数据缺失;(二)在日志数据的处理阶段,由于保密等原因,一些数据会被匿名化或者归一化。该过程会直接造成数据缺失,在该过程出现的Bug则会导致意外的数据缺失。然而,当前日志分析领域对缺失数据的处理方法主要有简单移除缺失数据项,以及使用基于均值或者回归的统计学补全方法进行缺失数据恢复。现有方法存在以下问题:
(1)无法应对大比例数据缺失问题。随着数据中心规模增长,数据中心日志数据缺失比例有上升的趋势。在面对大比例数据缺失问题时,现有的简单移除方法会导致日志数据整体信息量大幅减少;而基于均值或回归的统计学补全方法恢复准确率低。两种方法都不能应对大比例数据缺失问题,进而影响日志分析工作的准确性。
(2)无法应对数据中心日志中不同数据属性之间复杂的相关关系。数据中心日志通常拥有十到数十个数据属性。不同的数据属性之间存在着不同的线性或非线性相关关系,对数据属性间的相关关系进行分析可以提高数据恢复的准确性。现有方法在恢复日志缺失数据时未考虑不同数据属性之间的相关关系,导致恢复准确率较低。且在恢复时需要人工指定恢复算法的输入数据属性,非专家人员在未对日志数据进行相关性分析的情况下,很难正确地进行选择。
发明内容
针对上述问题,本发明提出了一种基于张量的数据中心日志缺失数据恢复方法。本发明首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性,选取最优数据属性子集,并使用一个两阶段离散化步长优化算法对数据进行离散化优化;然后将选取的最优数据属性子集作为张量的属性,构建一个稀疏张量;最后使用基于张量分解的张量补全方法,对稀疏张量进行补全,得到一个稠密张量。将该稠密张量与原始不完整日志数据结合,得到一个完整的日志数据集。
在本发明中,使用CANDECOMP/PARAFAC(CP)分解方法对稀疏进行补全。CP分解是一种广泛应用的张量补全方法,它通过将稀疏张量分解为若干个秩一张量,挖掘张量数据的变化规律,进而对稀疏张量数据进行补全。数据中心日志数据由于其自身特点,构建出的稀疏张量具有低秩性,因此适合使用CP分解进行张量补全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910056129.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





