[发明专利]用于高密度刀片服务器的高可用监控管理装置及冗余切换方法有效
申请号: | 202010754634.1 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111880999B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 袁远;邢建英;李世杰;王俊;蒋句平;黎铁军;宋振龙;李琼;魏登萍;谢徐超;任静 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/16 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 高密度 刀片 服务器 可用 监控 管理 装置 冗余 切换 方法 | ||
1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,所述心跳报文以及所述补救心跳报文中携带的信息包括主从CMU编号、时间戳、操作系统状态、数据库服务状态、CMU主板状态、网络芯片状态、非关键性错误信息。
2.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述主CMU和从CMU均包括机框交换模块(1)、机框管理模块(2)和机框监控模块(3),所述机框交换模块(1)分别与机框管理模块(2)、机框监控模块(3)相连,所述第一通信链路位于主CMU和从CMU的机框管理模块(2)之间,所述第二通信链路位于主CMU和从CMU的机框监控模块(3)之间,所述用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块(1)上,所述用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块(3)上。
3.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框管理模块(2)包括微处理器,所述微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块(1)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。
4.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框监控模块(3)包括BMU子卡,所述BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块(2)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块(2)以传输补救心跳报文。
5.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述连接端子为I2C或者PMBUS接口。
6.一种高密度刀片服务器,包含
7.一种权利要求1~5中任意一项所述用于高密度刀片服务器的高可用监控管理装置的冗余切换方法,其特征在于,包括主CMU定时向从CMU发送心跳报文以及补救心跳报文,以及从CMU定时监测接收心跳报文以及补救心跳报文的步骤,且从CMU定时监测接收心跳报文以及补救心跳报文后的处理步骤包括:
1)根据心跳报文以及补救心跳报文判断主CMU是否已经停止工作,如果已经停止工作则跳转执行步骤2);否则跳转执行步骤3);
2)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则接管监控工作;跳转执行步骤1);
3)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则停止监控工作;跳转执行步骤1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010754634.1/1.html,转载请声明来源钻瓜专利网。