原文:《商业银行IT运维管理体系》

随着金融科技发展的日新月异,信息技术在银行系统扮演的角色越来越重要,银行业的日常稳定运营与IT系统紧密相关,信息技术早已成为与核心业务系统管理息息相关的重要要素。构建安全、稳定、有序、高效的IT运维管理模式,是各商业银行推动业务系统稳定运行、加强自身竞争能力的关键所在,对促进商业银行支付业务安全健康发展具有积极意义。

主要问题

IT运维管理是指基于网络基础设施建设,在网络设施的运行状态下,采用相对应的管理方法,对物理网络、软硬件环境等运行环境进行维护管理的IT管理工作,实现完善的IT运维管理是商业银行提高经营水平和服务水平的关键。从调研情况看,目前商业银行IT运维管理工作存在一些问题,制约了商业银行IT运维管理水平的进一步提升。例如:IT运维管理机制不完善,流程操作缺乏严肃性;运维管理过度依赖科技人员,不能形成与统一业务目标建设的合力;KPI关键绩效指标考核机制不完善,不能全面准确反映真实的工作绩效;缺乏管理工具,无法在IT运维过程中提供全面、安全、稳定的运行支持;缺乏系统化的、详尽的标准化建设,简单的收集、梳理难以满足未来企业IT信息化发展需要;突发事件的预警和告警无法实现统一可视化,导致IT运维事件响应来源不一,工作效率低下,突发事件应急能力较低。

管理思路

从商业银行IT运维管理存在的问题分析看,应采取“三步走”模式逐步加以完善和改进:一是运维服务流程梳理,对服务工作任务分解、排列,形成固定服务程序;二是在服务流程、规范这两个维度形成“服务工作标准”,确保操作流程统一性;三是利用IT工具约束工作任务,建立相应的KPI关键性指标,准确衡量服务质量。

在此基础下,从六个方面进一步完善IT运维管理平台。一是搭建统一监管平台。通过搭建统一监管平台,实现机房状态、系统状态、网络吞吐、应用日志等基础监控和业务监控的统一管理,摆脱监控产品多、监控场景单一的处境。二是实现基础设施全面监控。采用专业的运维监控框架,结合行内自身特点进行适应性匹配,实现所有设备实时监控。三是分析、归类、整合高效化。借助ELK技术将分散在服务器中的数据收集、分类;采用运维监控和ELK两种采集方式,结合大数据手段,对数据进一步分析、归类、整合等,为IT运维提供多种数据服务。四是数据分析的加强。利用互联网成熟稳定技术作为支撑,在统一监控平台基础上,对各类监控数据指标进行数据处理、趋势分析,降低风险发生概率。五是强化突发事件处置能力。统一监控平台可在突发事件中触发告警,对常规操作谨慎自动化尝试处理,为突发事件的处理争取时间。六是标准化与自动化相结合。信息科技管理平台与统一监控平台相互对接,通过标准化流程推动自动化处理,保障运维合规化、标准化、自动化流程。自动化能力与标准化建设相辅相成,共同发展,为IT运维管理提供全面支撑。

管理目标

其一,自动化业务监控——风险提示。统一监控平台以微服务架构模式,通过多个不同服务模块对支付系统进行实时监控,如:查询查复、头寸、净借记限额、止付业务、退汇、挂账未受理情况等,通过大数据趋势分析,规律性展示业务高发时段,提醒运维人员提前做好风险防控。

其二,基础环境信息收集——风险暴露。基础环境信息采集内容不断增多,通过统一监控平台反映出来的如影响性能或安全方面的隐患逐渐显露,及时调整系统、网络、应用架构,尽早处理隐患,保障了支付系统的业务连续性,网银交易超时率大幅降低。

其三,可视化信息查询——风险灵活掌握。可视化信息查询以“监控随行”为目标,实现多节点、自适应、跨平台、多端适配,信息随行方式,使相关业务、技术人员随时随地查询统一监控平台的监控信息,使支付基础环境、业务指标、异常检测通过预警、告警、可视化、数字化、自动化和多展示、多处理形式,提高受理效率,保证支付安全。

相关建议

一是强化信息共享。IT运维管理相关技术更新换代速度较其它领域更快,相关技术人员需要接受的信息较多,加强信息的共享是避免出现技术盲区的有效手段之一。提供开放的分享空间,使员工通过讨论的方式分享自己的经验与想法,加强信息流动力的同时激发员工的创新思考精神,各部门间相互学习,交流经验,从而达到增强整个IT运维管理团队技术能力的目的,逐步击破整个组织技术盲区。

二是加强运维流程管理。进一步完善运维管理流程,健全运维管理制度和标准,通过建设全面的监控管理平台将各个业务系统中的各种设备、软件、业务应用均能纳入到监控平台中来,消除管理对象之间差别、消除数据采集手段的差别、消除管理软件的差别,对各种不同来源数据统一处理、统一展现、统一用户登录、统一权限控制。

三是增强应对突发事件能力。应急演练是检验IT运维管理体系成熟度、运维应急预案、系统承载力的重要手段。日常加强应急演练,是保障突发事件下IT运维管理相关系统正常运行的重要前提。在具体演练中,要制定详细的演练方案,明确突发事件成因、目的、具体时间、演练成员等重要事项,针对演练过程中发现的问题,进行评估分析,完善IT运维管理应急体系,为应对突发事件打下坚实基础。