[发明专利]一种虚拟机高可用方法在审
申请号: | 201710843325.X | 申请日: | 2017-09-18 |
公开(公告)号: | CN107656845A | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 韩飞;邓玉芳;季统凯 | 申请(专利权)人: | 国云科技股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/07;G06F9/455 |
代理公司: | 广东莞信律师事务所44332 | 代理人: | 余伦 |
地址: | 523808 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟机 可用 方法 | ||
技术领域
本发明涉及虚拟机技术领域,特别是一种虚拟机高可用方法。
背景技术
云计算平台里,因为网络、存储系统、软硬件故障等多种原因,虚拟机潜在因为故障导致服务终止的可能。为了解决这个问题,很多云计算平台会提供虚拟机高可用机制来在虚拟机失效后自动快速恢复虚拟机的运行。这些高可用机制可以分为两大类,有控制器和无控制器。它们的典型实现往往有以下问题:
一、对于无控制器方案来说,为了保证虚拟机高可用,需要预先为虚拟机部署一个高可用集群,通过某种分布式算法来监视虚拟机的状态和沟通故障转移。Vmware及Azure都是这类实现方法。这种方法的问题在于操作运维上的复杂性、资源的浪费,以及不可控性,可靠性不高等;机制实现上的复杂性。另外一种就是用现成的开源工具如keepalived、heartbeat等来做,但操作复杂性高,方案可靠性低。
二、对于有控制器方案来说,不依赖分布式协调算法来自动执行虚拟机的恢复过程,而是依赖控制模块来控制协调整个恢复过程,可控性更高;但是主流的实现方式普遍存在可靠性不足的问题,如:要依赖agent,没有发现故障,误判故障,磁盘数据损坏等。
发明内容
本发明解决的技术问题在于提供一种简单易用,可控和高可靠的虚拟机高可用方法,满足云计算平台环境下虚拟机自动故障恢复的需要。
本发明解决上述技术问题的方案是:
所述的方法是虚拟机监视器启动监控流程;在监控流程监控虚拟机存储系统正常时往虚拟机写入时间戳标记;如宿主机监控模块检测时间戳更新异常时,告警控制机的控制模块;控制模块确认故障后,修改虚拟机属主,进行故障恢复。
具体包括如下步骤:
步骤1:在虚拟机监视器中启动一个独立的监控流程,虚拟机启动时检查磁盘是否属于虚拟机自己,如果不属于,则会告警后退出;属于则正常运行,并周期性检查虚拟机磁盘;
步骤2:如果虚拟机存储系统正常,则监控流程往虚拟机磁盘写入时间戳标记;如果存储系统不正常,则无法更新时间戳;
步骤3:虚拟机所在宿主机上的监控模块周期性检查虚拟机更新的时间戳,如果没有正常更新,则向控制主机上的控制模块发出告警;
步骤4:控制模块接收到报警后会再次通过疑似故障虚拟机磁盘检查虚拟机状态,如果确实故障,则执行步骤5;如果并非故障或故障已经恢复,则执行步骤6;如果没有接收到监控模块的心跳信号,表明至少监控模块到控制模块之间出了问题,控制模块也会发出警告。
步骤5:修改虚拟机的属主,等待一段安全时间后在其他宿主机恢复虚拟机;
步骤6:不采取任何恢复流程,同时向管理人员报告,流程结束。
所述的虚拟机监视器为hypervisor,是宿主机上实际运行和管控虚拟机的系统,包括Xen、qemu-kvm;
所述宿主机是指实际运行虚拟机的物理服务器,监控模块独立于虚拟机监视器运行于宿主机上;
所述控制主机是云计算集群中负责运行和提供控制服务的服务器;
所述属主,指的是哪台虚拟机和宿主机拥有该虚拟磁盘的使用权。
所述的监控流程是启动虚拟机前启动的一个线程;该线程专门用于周期检测虚拟机磁盘的可读可写性,并更新时间戳以表明虚拟机hypervisor以及虚拟机访问存储系统正常。
所述的控制模块所在服务器需要能访问到疑似故障虚拟机的虚拟磁盘,且只需要在虚拟机时间戳更新周期内检查时间戳有没有变化,并不需要时间的精确性。
所述的控制模块选择一台合适的宿主机恢复运行该故障虚拟机,修改虚拟磁盘的属主后,等待一个安全时间周期,再在选择的宿主机上启动要恢复的虚拟机;
所述等待一个安全时间周期,是为了防止虚拟机只是因为临时性的网络故障导致误报而错误触发了故障转移,从而导致业务中断乃至数据损坏;虚拟机会确保在这个等待的安全时间周期内自行退出,防止发生脑裂。
本发明的有益效果如下:
(1)本发明通过基于虚拟机监视器的虚拟机高可用方案,可以在发生因为网络、存储系统故障、设备故障、软件故障等原因导致的虚拟机停止运行和业务中断情况下,实现自动化、简单而可靠的虚拟机故障恢复,保证虚拟机的高可用性。
(2)本发明通过从虚拟机监视器层实现故障检测机制,实现了简单可靠的虚拟机故障检测和恢复;通过配合控制器,可以实现灵活可控、使用简单的基于策略的虚拟机故障恢复机制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国云科技股份有限公司,未经国云科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710843325.X/2.html,转载请声明来源钻瓜专利网。