原文:《IT运维,关注技术还是管理》

近年来,国内外各企事业单位都十分重视信息化建设,把加快信息化建设作为提高生产经营管理水平、促进业务流程优化、加强内部控制、提高决策质量和效率的重要手段。

随着企业信息化的进一步深入发展,企业关注的不再是应该用何种网络管理产品,而是什么样的IT运维产品能够真正提高IT运维的效率、实现其价值,从而来实现企业IT效益的最大化,而企业既有的运维方式不能满足其高速发展的业务系统运转之时,改革运维方式成为必然。


技术型IT运维所面临的困境


传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题,然后再找到IT部门要求解决问题。这是由于传统的IT管理采用人工方式管理基础设施,网络管理是从各种IT基础设备出发的,仅仅是保障各类IT设备如服务器、数据库、存储设备、交换机等等基础设施的正常运行。

不采用任何管理软件,仅仅靠运维人员定期轮询,或者执行某项命令来检查设备,在系统规模较小时,只要参与运维的技术人员足够负责,人工运维方式是可以满足日常运维需要的。但是,当应用系统达到一定的规模后,这种运维方式的弊端就暴露出来了。轮询一遍要花费几个小时,这样,轮询周期越长也就代表越需要更久才能发现故障。这种被动式管理IT导致有了问题不能及时发现,给企业业务的正常运行带来了极大的影响,甚至造成较大的经济利益损失。

市场研究机构Gartner调查发现,在导致IT基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了20%,而因为运维管理方面的原因则占到80%,可见IT系统运维管理思想是相当重要的。所以,我们必须要向管理要效益。


高效IT运维需要转变运维管理思想


随着越来越多企业对IT部门运营管理不满意,日常维护、故障定位、事故处理方式方法等方面出现的一系列问题,都在困扰着IT管理人员。如何提高企业IT管理已逐渐成为IT部门新的热点话题,为企业提供持续高效支撑,对IT部门而言也变得越来越紧迫。所以,我们必须要转变运维管理思想,通过以下几方面来实现高效的IT运维:

1)建立自动化运维管理平台

第一步:建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。

第二步:自动化的故障定位,通过业务服务管理,实现IT与业务的关联,通过IP-MAC绑定信息等等,自动定位故障点。 

2)建立故障事件自动触发流程,提高故障处理效率

所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。 

3)建立规范的事件跟踪流程,强化运维执行力度

首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

4)设立IT运维关键流程,引入优先处理原则

设立IT运维关键流程,引入优先处理原则是指定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。