原文:《如何有效进行IT运维管理》

IT运维中的不良习惯 

(1).治标不治本。IT设施故障往往是突发的、随机的、不可预测、不可控制的.也很难自动提醒和警告。运维和管理人员成天处于高度紧张状况,节假日也提心吊胆。一旦发生故障,往往手忙脚乱来不及仔细多方面观察、分析原因,也无法很快准确定位。为了尽快恢复业务,只能采取重启、清除等不可回朔操作。这种治标不治本的维护措施,不能根本解决问题,类似现象仍然可能再发生。 

(2).没有排错记录。我们的很多IT人员没有排错记录的习惯,这样当事后查找原因缺乏当时记录,就算找到点痕迹也缺乏进一步分析数据。因为故障不能再现,很难有准备地捕捉有效信息。而要在生产环境模拟故障业务几乎不允许。开发环境又很难模拟和再现。少量片面的系统日志很难看出问题症结,缺乏自动实时捕捉问题关键点并忠实记录工具。造成问题发生后无法回朔,问题解决无法找到头绪。 

(3).缺乏统一的规范要求。出现同题时解决办法因人而异,缺乏方法和工具,无法制定统一的规范要求。在专家解决问题的经验缺乏记录、整理、积累和继承。从保障稳定看,必须高价保持足够专业运维人员。工作安排松了不利于人员发展和稳定,但安排太紧又无法保证及时响应和解决问题。 

(4).应对危机太被动。对反映的问题和解决状况缺乏统一管理和跟踪,全靠个人素质和责任感。无法衡量、统计员工的业绩贡献,也无法发现哪些问题最影响系统稳定.造成问题的因素是在积累还是在减弱,更缺少预警提醒机制.只能被动无序地等问题发生甚至很严重了才意识到。

  

IT运维管理的内容 

IT运维管理是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,IT运行环境(如硬软件环境、网络环境等)IT业务系统和IT运维人员进行的综合管理。如果进行细分的话,应该包括以下几个方面:

(1).设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理; 

(2).应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理。如邮件系统、DNSWeb等的监控与管理; 

(3).数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复; 

(4).业务管理:包含对企业自身核心业务系统运行情况的监控与管理和对于业务的管理; 

(5).目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理: 

(6).资源资产管理:管理企业中各IT系统的资源资产情况; 

(7).信息安全管理:企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等; 

(8).日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

 

IT运维管理方案

(1).建立IT运维管理服务平台 

IT运维管理服务平台帮助IT部门内部各专业部门以单点联系窗口的形式对外服务,业务部门不必了解IT部门内部的运作流程。只需将故障报告给IT部门服务窗口的一线服务台人员即可。由一线支持人员对故障进行分类以电子工单方式派发到相关的专业部门或相关人员处进行及时处理和响应,并向用户及时进行反馈。用户对不同专业部分的咨询、问题和投诉都通过该窗口进行,以避免用户与各级支持人员直接联系带来的种种弊病。如出现不同问题找不同支持人员、找不到人、问题得不到及时反馈和解决等等现象。

 

(2).实现IT监控和统一展现 

面向业务监控和统一展现能够评估各种IT基础设施和服务在设定的某个时段是否发挥其应有的功能,同时实现对网络、系统及应用服务等全方位监控的统一呈现。统一告警平台汇总、压缩和关联各种设备或服务的告警信息,实现统一监控和展现。这样,各专业部门可以协同作战发挥更大的作用。

 

(3).构建科学、规范的服务流程管理 

根据企业的实际组织架构,把故障支持划分不同的类型和等级,形成梯队化的故障处理流程,避免出现资源浪费。并且在每个级别的故障事件处理中,通过自动跟踪机制实现故障的自动跳转和升级,从而确保不同紧急程度的故障得到及时的响应和处理,帮助企业建立起一套科学规范的1T服务管理流程。企业环境下首次或者突发出现的事件、告警或故障通过事件工单进行处理;而对于多次出现、深层次、临时恢复的告警事件,可通过问题管理进行解决,以便于协调优势资源攻关和彻底解决。通过层次化、标准化、科学化的管理,量化的评估每个技术人员的工作能力,减少了故障对业务的影响,避免出现责任不明晰,响应不及时的问题,提高客户和用资源的使用更加合理。

 

(4).实施严谨、高效的变更审批流程 

为基础设施的变更提供快速的电子通道,减少变更过程中出现管理失控的风险和不必要的人为干扰,缩短审批时间,提高变更实施的效率。严谨的变更管理确保在变更实施过程中使用标准化的方法和流程,尽快和有效地实施变更,从而把由于变更所导致的事件对IT服务的影响减小到最低,同时改善了公司的日常运作。它包括一套完整的变更管理功能,包括变更的发起、审批、影响评估、派发实施等功能。以工单的形式在各部门和责任人之间流转。

 

(5).IT资产配置完善管理 

为企业建立完善的配置基线,为企业建立一套详实的配置管理数据库,小到主机内存、设备端口,大到网络结构、部门或公司的建制,从有形的资产到无形的应用系统、人力资源等都能以电子方式准确记录并长期保存。同时,资产配置管理与服务的事件、问题和变更流程相关联。如变更流程审批完成之后增减的资产配置信息,将自动在资产配置管理数据库中实现同步更新。 

IT运维实施有效管理,不仅能够解放IT人员提高其工作效率,而且也是对企业业务部门的有力支持。