[发明专利]一种云系统故障诊断方法有效
申请号: | 202010529320.1 | 申请日: | 2020-06-11 |
公开(公告)号: | CN111769974B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 周朋朋;王阳;李振宇;谢高岗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 系统 故障诊断 方法 | ||
本发明提供了一种云系统故障诊断方法,将日志按照产生的组件进行划分,对每个组件的日志分别提取日志的统计特征,训练差异性的模型进行故障诊断。本发明在模型训练中,使用深度学习方法,学习统计特征的时间关联性,并使用神经网络模型进行动态的故障判定。本发明设计实现了线上模型更新方法,解决了训练数据集覆盖不全面的问题,保证了模型更新时的诊断吞吐率。本发明能够为复杂的云系统提供高速、精确的故障诊断和定位。
技术领域
本发明涉及云计算领域,特别涉及一种云系统故障诊断方法。
背景技术
伴随着云计算、网络功能虚拟化技术(Network Functions Virtualization,NFV)的成熟,商用云系统不断发展壮大,并且发挥着越来越重要的作用。阿里云、谷歌云、亚马逊云等典型的商业云系统可以按需对用户提供差异服务。根据用户不同的存储、计算需求,为用户提供多种解决方案。云系统的成熟与发展在保证用户需求的前提下极大的提升了系统资源的利用率从而降低了运营成本。云系统灵活的资源配置也给自身的可靠性与稳定性带来了挑战。用户可以通过云系统提供的统一接口来完成资源的动态配置与扩展。资源动态配置的完成需要云系统各个组件的密切配合,单一组件的异常可能会导致整个系统的功能异常甚至崩溃。因此,如何对云系统进行有效的监控和诊断成为了提高云系统稳定性的关键问题。
日志记录了系统运行的关键信息,为了对云系统中可能存在的故障进行快速准确的定位与诊断,研究者致力于使用日志数据来监控与诊断系统的健康状况。现有的基于日志的云系统故障诊断方法主要有以下三种。
第一种是基于日志标识符的方法。该方法假定日志中存在标识日志对象的标识符,例如IP地址、Mac地址、用户ID等。此类方法根据日志中含有的标识符信息,构建不同对象间的依赖关系,例如IP地址与Mac地址的对应关系,通过依赖关系图可以实现故障对象的根源定位。Stitch是采用该方法的云系统故障诊断系统,其假定日志中存在对象的标识符。Stitch首先提取日志中对象标识符。同一条日志中出现的日志对象之间将建立对应关系。通过对数据集中所有对象依赖关系的提取,Stitch构建出日志对象依赖关系图。当其中的一个对象出现异常或错误时,Stitch通过分析对象依赖关系图,最终可以确定错误产生的根本原因。Stitch可以实现故障的根源定位,但需要日志对象标识符作为应用的前提。然而并非所有的日志都包含对象标识符,因此该方法的应用场景具有局限性,不具备普适性,难以在真实的云系统中得以良好使用。
第二种是基于工作流的方法。该方法从日志中提取任务或程序的运行轨迹,通过当前执行路径与历史执行路径的对比实现故障的定位。CloudSeer是基于工作流方法的诊断云系统中任务的运行错误的系统,当任务出现错误时实现快速、准确的故障位置诊断与定位。CloudSeer首先从日志中为云系统中的每个任务(例如虚拟机的创建、删除等)提取其工作流。工作流是该任务执行的过程中,各个服务进程打印的日志按照时间顺序组成的日志序列。以任务的工作流为输入,CloudSeer为每个任务构建相应的自动机模型。通过任务自动机的匹配过程实现故障诊断。但是,CloudSeer工作流的提取限制在串行的环境下,这使得其工作流在并行的环境下缺乏普适性。而云系统中的任务具有高并发性,这使得不同任务产生的日志高度交叠,难以区分某条日志具体由哪个任务产生。同时,云系统任务的高并发性也使得日志乱序,从而使得同一任务可能出现多种不同的任务流。基于工作流的方法受此影响难以提取到完备的工作流,因此在高并发的环境中诊断准确率低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010529320.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种柔性离子液体超级电容器
- 下一篇:一种二维码识别方法及装置