原文:《数据中心的运维管理原则》

数据中心的运维管理原则

现在的数据中心少则几百个机柜,多则成百上千,甚至上万个机柜。面对如此大规模的数据中心,如何利用现有的设备和技术手段,在向客户提供满意的服务质量的同时,将数据中心自身的运维成本降至最低,乃至实现自身运营的利润最大化。正所谓三分技术,七分管理,评判一个数据中心的优劣,不仅仅在于其采用了先进技术水平,亦或是聘用了多少行业的技术专家,更多的在于其整体的管理水平,合理地配置企业资源和人力资源。

数据中心在投入运营之前,首先需要解决的是基础设施的运维工作,而人又是机房运维管理的核心力量,所以重点是机房运维人员的管理制度。

 

(一)运维团队管理

机房运维人员是最接近生产设备的技术人员,在设备运行故障时,要求其沉着冷静地第一时间赶赴现场查看故障信息,并分析故障原因,做到及时向领导汇报,因此一线运维人员必须经过严格的制度培训和技术培训,考核合格后方可上岗。另外,涉及设备操作动作,如电气设备,必须持低压电工和高压电工作业证等,做到有证上岗,并且不得单独承担值班工作和相关的独立操作行为。在日常值班过程中,为了保证机房运维管理的工作质量和运维团队的管理水平,需要针对不同的运维工作开展专项运维培训,以及相关的应急演练,培养一支技术扎实、具备实际操作能力的运维团队。

 

(二)值班管理

机房运维过程中,要求值班人员具有认真、负责的工作态度和积极乐观向上的工作激情,严格按照值班手册执行、坚守岗位职责:加强机房巡视、对设备运行状态(机房温、湿度,电力运行)了然于胸,以及监视设备监控系统的运行状态,并按规定及时上报,并在交接班时主动向接班人员口头交接值班过程中遗留问题和注意事项。另外,值班人员必须认真、如实、详细地填写机房设备巡视记录、设备监控系统运行状态和值班过程中的交接表制作,并及时上传工作原地,方便其他运维人员查阅。

 

(三)日常运维工作安排

值班期间,每个班组根据自身的运维内容制定运维计划以及组内成员责任划分,如接班前主动询问上个班组有无遗留问题、并查看交接班表中的注意事项、机房巡视安排等等。另外,值班人员根据自己负责的运维设备,需制定月度或季度乃至年度计划安排。如,柴油发电机作为数据中心的后备电源,除了正常每月的健康检查外,还需要额外增加两次带载演练(注:演练时间除了满足避开业务高峰期外,还需要避开用电高峰期的夏季和冬季,以免因为带载过重发电机故障而此时市电出现波动等突发事件),以保证在市电不可用时,发电机能够保证数据中心的正常运营。当然,运维人员日常运维过程中,所有的设备操作必须满足双人操作,并形成详细地操作步骤,以文档形式记录下来。设备运行期间难免会出现故障,故障在第一时间得到解决后,也应该及时做好故障设备清单、备件以及故障原因和解决方案的记录,提高整个运维团队的后期运维经验。

最后,运维主管应该定期或不定期的抽查运维人员对中心运维制度执行和技术熟悉程度,并纳入运维人员季度和年度的绩效考核,提高整个运维团队的运维水平。除此之外,运维主管应该根据日常运维数据报表,做到横向和纵向的分析比对,如根据月度设备故障率,对重点设备着重关注,将潜在的故障风险消除在摇篮中,另一方面重点提高运维人员在该方面的故障解决能力,提高运维工作效率,严格把控运维工作质量。