[发明专利]一种在云环境下的应用故障定位方法有效
申请号: | 202011524063.9 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112714013B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 王东杰 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | H04L41/0677 | 分类号: | H04L41/0677;H04L41/0654;H04L41/0631 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 环境 应用 故障 定位 方法 | ||
本发明提供一种在云环境下的应用故障定位方法,属于云环境下应用运维领域,包括(1)通过对应用系统分层,将应用所涉及的所有软硬设备集中统一监控管理,收集展示所有相关组件的性能数据、告警数据(2)应用产生故障时,通过聚合分析对应时刻产生的所有告警数据,快速定位故障产生的根本原因,以便后续的快速恢复(3)对于云租户无法掌控的公共设备,采取对比分析定位,可定位问题范围,结合云服务商技术支持可快速恢复(4)综合分析各层组件性能数据、调用性能数据,可以定位性能瓶颈,给出专业的性能优化策略。
技术领域
本发明涉及云环境下应用运维领域,尤其涉及一种在云环境下的应用故障定位方法。
背景技术
随着云计算技术日趋成熟,中小型企业及政务相关行业为了减轻日常服务器运维压力,转而将应用部署在云环境下,云环境下,单个租户无法掌握所有设备的具体情况,比如公用的交换机、防火墙、DDoS等设备;出于安全考虑,云服务商最多只能获取到云服务器的性能数据和公共设备的性能数据;此时,应用的运维问题逐渐凸显,无论云服务商还是租户都无法单独完成应用的运维工作。同时,在全国多家ISP背景之下,由于ISP提供的核心网络具有明显的地域差异,单个组合无力构建遍布全国的应用性能探测系统。
云计算在带来便利的同时也带来更高的运维难度,传统的应用运维难以快速定位在复杂的云计算环境下的应用故障,比如由于公用网络设备导致的公网无法访问内网可以访问的故障、存储虚拟化带来的数据访问问题。
发明内容
为了解决以上技术问题,本发明提供了一种在云环境下的应用故障定位方法,实现在复杂网络环境下监控应用整体性能、定位应用故障根因、分析应用性能瓶颈、告警自动化等功能。
本发明的技术方案是:
一种在云环境下的应用故障定位方法,包括:
(1)通过对应用系统分层,将应用所涉及的所有软硬设备集中统一监控管理,收集展示所有相关组件的性能数据、告警数据;
(2)应用产生故障时,通过聚合分析对应时刻产生的所有告警数据,快速定位故障产生的根本原因,以便后续的快速恢复
(3)对于云租户无法掌控的公共设备,采取对比分析定位,可定位问题范围,结合云服务商技术支持可快速恢复;
(4)综合分析各层组件性能数据、调用性能数据,可以定位性能瓶颈,给出专业的性能优化策略。
通过在应用所在的虚拟机或云物理机安装采集客户端,结合应用所需的最基本的网络拓扑信息,收集虚拟机性能信息,包括基础的CPU、磁盘、内存、网络、进程状态、防火墙信息等,收集应用所使用的中间件、数据库等组件的性能数据和日志数据,收集应用组件的相互调用的性能数据。
通过在网络不相连的业务子网,复用虚拟机或部署前置机,用于汇总性能、日志、告警数据,监测端口,监测主机网络状态数据,如IP地址、端口存活等
在政务云中心部署网络质量仿真分析系统服务端;提供多个Rest API接口,用于采集客户端的注册,以及采集信息的接收存储、分析、告警及展示。通过针对数据库、消息队列、服务等方面的集群化部署,实现服务端的HA高可用特性;并通过负载均衡方式提升服务端Rest API的并发处理性能。
步骤如下:
(1)在应用所使用的所有虚机上部署数据采集agent,用户采集服务器性能、日志、告警数据;
(2)在网络隔离的不同的业务子网内各选定一台虚机,用于汇总整个业务子网内所有数据;
(3)对于规模较大的业务子网(子网内虚机超过200台),单独创建一台前置机,用于汇总整个业务子网内所有数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011524063.9/2.html,转载请声明来源钻瓜专利网。