[发明专利]一种Parastor200并行存储运行环境问题检查方法有效
申请号: | 201310226012.1 | 申请日: | 2013-06-07 |
公开(公告)号: | CN103384209B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 刘冠川;秦东明;杨亮;曹振南;王勇;何牧君;张新风;陈飞;刘超;龚超;明立波;王慧;吕永安 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 parastor200 并行 存储 运行 环境 问题 检查 方法 | ||
技术领域
本发明涉及一种Parastor200并行存储运行环境问题检查方法。
背景技术
ParaStor200并行存储系统采用了代表存储技术、网络通信技术以及数据管理技术发展方向的并行体系架构,是一款面向海量非结构化数据处理、拥有自主知识产权的高端存储系统。它可以提供TB/s级的高速带宽和EB级的海量存储空间,能够满足飞机汽车船舶设计、生物基因研究、材料科学研究、天气预报、地震监测、环境监测分析、能源勘探、电子商务、网络游戏、社交与视频分享网站建设、动漫渲染、视频编辑处理等领域中对于存储容量和I/O性能要求极高的应用,可广泛应用于政府、教育、科研、制造、企业、医疗、石油、广电、互联网等行业。
MGR表示Parastor200的管理节点,提供统一的控制管理界面,管理员通过该节点管理整个存储系统。oPara表示Parastor200元数据节点,用于管理存储系统的所有索引数据和命名空间,对外提供单一的全局映像,支持多个节点以Active-Active集群模式工作。oStor表示Parastor200数据节点,用于提供数据存储空间,内嵌高性能数据存取引擎,并行处理所有客户端的数据访问请求,支持多个oStor以副本方式(1-3个副本)容错。BMC表示底板管理控制器(Baseboard management controller),是主板上的微控制器。
Parastor200并行存储在硬件上由管理节点、元数据节点、数据节点、及网络设备等部件组成,由于涉及部件较多,无疑引入了比较多的故障点,而系统运行环境的问题经常会导致存储系统的故障。目前,Parastor存储监控主要通过管理界面查看,能够查看Parastor系统各节点的服务运行状态、实时的IO统计、客户端授权信息等。
目前当系统运行环境出现问题时,我们还难以通过管理界面所呈现的信息来进行诊断。同样的现象可能背后有很多不同的诱因,所以有必要对系统运行环境做更细粒度的检查。
Parastor200并行存储系统有一定的复杂度,当出现问题时,技术水平一般的现场工程师难以对这些问题进行处理,这时候就需要总部工程师通过电话等方式对现场工程师进行远程指导处理。然而当现场工程师对Parastor缺乏了解,无法对问题做准确的描述时,还需要总部工程师详细的告诉现场工程师做各种现场测试或者是如何截取某部分日志信息发给总部工程师进行诊断。这耽误了大量的时间。
发明内容
针对现有技术的不足,本发明提供一种Parastor200并行存储运行环境问题检查方法。本方法使存储系统debug流程变得非常清晰简单,即使是对Parastor200存储系统完全不了解的工程师也可以到现场处理问题。即便出现现场工程师无法判断的问题,也能够很快的收集到有用的信息供远程的总部工程师分析。
本发明的目的是采用下述技术方案实现的:
一种Parastor200并行存储运行环境问题检查方法,其改进之处在于,所述方法通过将Parastor200故障检查流程程序化来实现;包括下述步骤:
A、检查存储节点网络是否正常,判断是否有丢包现象;
B、检查存储节点是否有坏盘和磁盘变成readonly(只读)现象;
C、检查存储节点的存储系统服务是否正常;
D、检查存储节点时间是否同步;
E、触发存储系统信息收集进程收集信息。
其中,所述步骤A中,通过flush ping检查各存储节点网络是否正常,判断是否有丢包现象:
如果无丢包现象则通过,有丢包则报告丢包节点,并提示现场工程师检查该节点并处理,然后再查,直到无丢包现象。
其中,所述步骤B中,通过Parastor200管理工具检查是否有坏盘和磁盘变成readonly(只读)现象;
如果有有坏盘和磁盘变成readonly(只读)现象,则定位到具体的盘,提示现场工程师进行处理;如果没有则通过。
其中,所述步骤C中,通过Parastor200管理工具检查各个存储节点存储系统服务是否正常;
如果正常则通过,如果某个节点的存储系统服务出现故障,则提示现场工程师手动启动该节点服务,并触发信息收集程序收集信息供总部工程师进一步检查诱因。
其中,所述步骤D中,如果存储节点存储系统服务没有问题,然后检查存储节点时间是否同步;
如果同步则通过,并告知现场工程师;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310226012.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超高强度活性粉末混凝土及其制备方法
- 下一篇:抗压管涵及其制备方法