原文:《数据中心基础设施运维管理——应急管理》

应急管理,是对数据中心运维过程中所发生的紧急的非常态运行状况的措施部署与管理,数据中心基础设施的运行可能会遇到紧急状况的发生,而紧急状况是数据中心基础设可靠性和业务连续性的最大挑战,辨识和处理紧急状况是衡量运维能力的重要指标。运维要时刻准备好面对紧急状况的发生,实际中,由于紧急状况难以提前判断,所以对于应急工作的管理,更多体现在各类应急场景的应急预案准备和演练的机制及措施上。

一、应急管理的定义

  1.应急的定义

    应急是对超出一般运行状态的工况立即采取必要的应对措施,以降低突发状况给系统可用性和连续性带来的威胁和影响。

  2.应急管理的定义

    应急管理是根据数据中心实际运行情况为紧急和突发的非正常运行工况而设定的一系列流程、制度、预案等应对措施的管理工作。

二、应急管理的目的

    应急管理的目的是能够及时和正确地处理突发紧急状况,达到预期处理效果,降低或消除影响,恢复数据中心基础设施系统的可用性。具体表现在:

    1)使运维人员有采取应急措施的依据,且能正确高效处理应急状况。

    2)对应急状况控制和监控,降低损失,保障运行现场的人员安全和设施安全。

    3)尽快恢复系统运行和尽可能恢复服务等级。

三、应急管理的范围

    应急管理的范围包括基础设施运维过程中产生的所有应急状况。应急状况一般分为两类:一类是常规的紧急事件,不可预估,需设置一般性应急处理流程,另一类是可预估应急状况,需要制定完善的应急预案,定期实施应急演练。

四、应急管理的流程

  1.主要流程

    应急管理的流程应当是针对数据中心实际运行情况,从风险分析开始到正确处理应急事件的全过程,主要包括:

    1) 风险分析。

    2)场景梳理。

    3)体系建立。

    4)应急演练。

    5)优化配置。

    6) 循环改进。

  2.应急响应

    突发或紧急事件发生时,应按照分级负责、快速反应的原则响应,数据中心应急预案及响应等级划分可参照国家应急预案标准,结合数据中心的属性和等级制定。应急预案应按照风险发生的可能性以及发生后果的严重性制定,并应确保对应应急场景下的可接受的服务目标的实现,应急预案不仅包括 EOP,还应包括以下内容:

    1) 应急预案的使用原则和适用场景。

    2) 应急人员的组织架构及职责。

    3) 警报等级的划分及启动应急响应的策略.

    4) 应急状况下的通报制度。

    5) 应急状况下的关键可用资源。

    6) 应急状况所造成直接后果的详细说明。

    7)在预定的时间里继续或恢复数据中心运行的具体措施。

    8) 应急结束后的退出过程及善后工作。

    9) 应急处理信息的存档。

  3.与其他流程的关系

    应急状况发生时,可能会触发其他流程,此时就要与其他流程共同完成应急处理。例如,事件管理流程、问题管理流程、变更管理流程等。

  4.管理策略

    应急管理应遵循以下策略:

    1) 应急处理有章可循,有法可依。

    2) 遵守国家相关法律法规,遵守数据中心所在地区的行政法律法规。

    3) 在保障运维人员生命安全的前提下,最大限度保障生产,降低损失和减小影响。

    4) 应急处理要做到统一领导,分级指挥,充分利用已备资源,突出保障重点。

    5) 应急处理的信息发布应当及时、准确、客观、全面。

    6) 对应急处理工作进行复盘和总结。