[发明专利]一种监控Lustre文件系统的装置、方法及系统在审
| 申请号: | 201510404945.4 | 申请日: | 2015-07-10 |
| 公开(公告)号: | CN105045534A | 公开(公告)日: | 2015-11-11 |
| 发明(设计)人: | 王冬冬 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
| 主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F11/34 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 监控 lustre 文件系统 装置 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种监控Lustre文件系统的装置、方法及系统。
背景技术
Lustre文件系统是应用于大型服务器集群的分布式文件系统,通常由多台服务器构成,用户通过Lustre文件系统获得快速、稳定的计算服务,但是由于使用Lustre文件系统的用户很多,很可能出现同时有多个用户对同一存储节点进行数据读取或写入的情况,在这种高并发量的数据读取或存储进行的时候,由于IO阻塞,很可能导致服务器宕机或死机,服务器一旦发生宕机或死机,将导致用户不用访问、计算中断或数据丢失等情况,带来严重的影响,因此,需要对Lustre文件系统中的各个服务器进行监控,采取相应的措施,从而避免IO阻塞情况的发生。
目前,针对Lustre文件系统的监控方法,主要是由系统管理员通过Ping命令和Free命令,检查Lustre文件系统中各个服务器的运行及存储情况。
由此可见,现有技术由系统管理员通过相应的命令,检查Lustre文件系统中各个服务器的运行及存储情况,由于人工检查不可能实现实时检查,服务器很可能由于IO阻塞而发生宕机或死机,因此Lustre文件系统的稳定性较差。
发明内容
本发明提供一种监控Lustre文件系统的装置、方法及系统,能够提高Lustre文件系统的稳定性。
本发明实施例提供了一种监控Lustre文件系统的装置,包括:Lustre监控工具LMT、报警模块及至少两个RPM监控包;
所述至少两个RPM监控包中的第一RPM监控包,与所述Lustre文件系统中的元数据服务器MDS相连,用于采集所述MDS对应的元数据存储节点MDT的IO吞吐量;
所述至少两个RPM监控包中的第二RPM监控包,与所述Lustre文件系统中的存储数据服务器OSS相连,用于采集所述OSS对应的存储数据存储节点OST的IO吞吐量;
所述LMT布置于监控服务器中,与所述各个RPM监控包相连接,用于根据所述RPM监控包采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平,如果超出安全水平,向报警模块发送报警命令;
所述报警模块,与所述LMT相连,用于接收到所述LMT的报警命令后,进行报警。
优选地,该装置进一步包括:配置窗口模块;
所述配置窗口模块,与所述LMT相连,用于以窗口的形式向用户展示可供选择的监控对象MDT和OST,接收到用户选择的监控对象标识及各个监控对象对应的安全阈值信息后,将所述被选择的监控对象的标识及各自对应的安全阈值信息发送给所述LMT。
优选地,所述LMT,用于接收到所述配置窗口模块发送来的被选择的监控对象的标识及各自对应的安全阈值信息后,将被选择的监控对象标识发送给所述RPM监控包。
优选地,所述RPM监控包,用于根据所述被选择的监控对象的标识,对各个被选择的监控对象的IO吞吐量进行采集,并将所述IO吞吐量数据发送给所述LMT。
优选地,所述LMT,进一步用于比较所述RPM发送来的IO吞吐量数据与所述配置窗口模块发送来的安全阈值信息,判断所述IO吞吐量是否超过对应的安全阈值,如果超过则向所述报警模块发送报警命令。
优选地,所述第一RPM监控包,用于采集所述MDS的数据传递和文件系统的命令接收情况的运行信息;
所述第二RPM监控包,用于采集所述OSS的文件I/O操作及文件系统数据维护情况的运行信息;
所述LMT,用于根据所述第一RPM监控包和第二RPM监控包采集到的MDS及OSS的运行信息,判断所述MDS及OSS的运行是否正常,如果不正常,向所述报警模块发送报警命令。
优选地,该装置进一步包括:记录模块;
所述记录模块,与所述LMT相连,用于记录MDS和OSS的异常运行信息及各个OST及MDT的IO吞吐量信息,并形成记录文件。
优选地,所述LMT,对所述文件系统的监控处于资源级别。
本发明实施例还提供了一种监控Lustre文件系统的方法,包括:
第一RPM监控包采集Lustre文件系统中MDS对应的MDT的IO吞吐量;
第二RPM监控包采集所述Lustre文件系统中OSS对应的OST的IO吞吐量;
LMT根据所述第一RPM监控包和第二RPM监控包各自采集到的IO吞吐量,判断MDT及OST的IO吞吐量是否在安全水平;
根据所述LMT的判断结果,如果超出安全水平,向报警模块发送报警命令;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510404945.4/2.html,转载请声明来源钻瓜专利网。





