原文:《关于AIOps智能运维,这些你都知道吗?》

据Gartner研究,在过去几年内,IT运营人员 (IT Ops) 发生了巨大变化。这种变化的推动力来自于企业IT运营团队认为传统IT管理技术和方法已经无法适应数字化业务转型。

Gartner预测,我们会看到当前的IT应用程序会发生剧变,而且我们管理整个IT生态系统的方式也会改变。这些变化的关键是Gartner所称的AIOps平台。

AIOps是什么?

AIOps指多层技术平台,这些平台采用分析和机器学习技术分析从多种IT运营工具和设备收集的大数据,自动实时确定并应对问题,从而实现IT运营的自动化和增强。

Gartner解释了AIOps平台如何采用下图所示模式而运行。AIOps包含两个主要组件:大数据和机器学习。它要求摒弃孤立的IT数据,以整合观测数据(例如在监控系统和工作日志中发现的数据)和大数据平台内部的交流数据(通常存在于工作单、事故和事件记录中)

然后,AIOps针对汇总的IT数据实施一种综合的分析和机器学习 (ML) 战略。这样做的预期成效是获得持续的洞察力,进而采用自动化能力实现持续改进和修复。AIOps可视为核心IT功能的持续集成和部署 (CI/CD)。

Gartner的AIOPS平台示意图

AIOps将三个不同的IT专业结合在一起 — 服务管理、性能管理和自动化 — 以实现持续洞察和改进的目标。在我们新的IT加速环境中,AIOps是一种识别策略,必须采用由大数据和机器学习支撑的新理念。

AIOps的来历

对于传统企业来说,AIOps并不是一个全新的理念,而是IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。

AIOps智能运维以ITOA/ITOM系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。

市面上流行的传统运维管理平台,其核心组件缺少大数据采集、分析和本地机器学习的能力,需要业务运维和AIOps平台予以完善。

AIOps智能运维平台能够接入不同业务系统、监控系统、管理系统的海量IT数据,并运用各种算法进行高速分析、学习甚至预测。

立足于AIOps,IT部门可以获得强大的自动化IT决策和运营管理能力,并能对业务质量和用户体验进行准确检测和持续优化。

AIOps的推动因素有哪些?

AIOps是足够新的IT平台,甚至还没有自己的维基百科页面。AIOps是Gartner IT运营分析 (ITOA) 的下一步演进。它的产生基于影响IT运营的多个趋势和需求,包括:

IT运营部门手动管理基础架构的难度。此处使用“基础架构”一词有些不当,因为现代化IT环境包括受管理的云、不受管理的云、第三方服务、SaaS集成、移动等。管理复杂性的传统方法在动态、弹性环境中行不通。如果通过手动方式跟踪并管理这种复杂性,人类的监督能力已经不再可能。当前的IT Ops技术已经超出手动管理的范围,而且这种情况以后会越来越差。

IT运营部门需要保留的数据量呈指数增长。性能监控产生的事件和告警数量呈指数级增长。服务单数量随着IOT设备、API、移动应用和数字或机器用户的引入而获得了跳跃式的增长。同样,手动报告和分析变得异常复杂。

基础架构问题必须更快地解决。随着企业的业务逐步数字化,IT也变成了业务。技术的“消费化”改变了所有行业中的用户期望。对IT事件的响应–无论是切实发生还是认为会发生的事件–需要立即进行,尤其是在问题影响用户体验的情况下。

更多计算能力转移到网络边缘。云基础架构和第三方服务的轻松采用使业务线 (LOB) 职能人员能够构建自己的IT解决方案和应用。控制权和预算从IT核心转到边缘。更多计算能力(可充分利用)来自核心IT外部。

开发人员拥有更多权力和影响力,但责任仍由核心IT人员承担DevOps和敏捷迫使编程人员在应用层面承担更多监控职责,但IT系统的整体健康状态以及应用、服务和基础架构间的交互仍由核心IT部门负责。随着网络日益复杂,IT运营部门要承担更多职责。

AIOps的要素

对于AIOps理念,旧有的IT运营方式不适合以上需求所定义的新世界。同样,Gartner将IT运营管理 (ITOM) 和应用性能管理 (APM) 定义为魔力象限市场,而且Gartner可能也为AIOps市场创建一个魔力象限。

AIOps平台由以下要素组成:

构成AIOps平台的技术

  • 全面且不同的IT数据源 - 来自目前孤立的工具和IT领域,例如事件、指标、日志、作业数据、工单、监控等。

  • 大数据平台 – 汇总IT数据,用于进行历史分析、实时响应和洞察。

  • 计算(运算)和分析 – 使系统能够从现有IT数据中生成新数据和元数据。运算和分析也消除了噪声,可识别模式或趋势,隔离可能的问题,发现底层问题,并且实现其他IT特定目标。

  • 算法 – 利用IT领域专业知识,根据企业数据及其预期成果的要求,以智能化方式适当且高效地运用计算和分析能力。

  • 无人监督的机器学习 – 可根据算法分析输出结果和引入系统的新数据而自动修改或创建新算法。

  • 可视化 – 以易于使用的方式向IT运营人员呈现洞察和建议,有助于加深理解并采取行动。

  • 自动化 – 采用分析和机器学习成果自动创建并运用响应措施,或者针对已发现的问题进行改进。

如上文所述,AIOps平台应包含性能管理、服务管理、自动化和流程改进等IT学科, 以及监控、服务台、容量管理、云计算、SaaS、移动性、IoT等技术。

AIOps是IT走向运营的点金手

未来几年,数字化系统的运行效能对企业核心竞争力的影响越来越大,CIO所领导的IT部门在运营中所扮演的角色也越来越重要。

然而,随着系统规模和复杂度呈指数级增长,IT人员解决问题的能力不会有太大的变化。要让IT摆脱传统运维工作的束缚,就需要运用AIOps智能运维平台来有效承担基础运维的种种责任。

在AIOps的帮助之下,IT人员可以从繁琐的常规工作中得到彻底的释放,专注于对企业发展更有价值的工作 – 业务和用户体验,让IT真正走向运营。

 “AIOps正在广泛应用于IT大数据和业务大数据分析领域,为企业提供极具价值的业务洞察能力”。

据Gartner分析师最新预测,到了2022年,部署AIOps平台的大型企业数量将从如今的不足5%,迅速提升到40%左右,而这些企业会把AIOps用于业务运营和IT运维,以取代如今的运维监控、管理工具和自动化运维产品。

当企业的数字化程度越来越高, IT系统的复杂度和规模越来越大,摆在CIO面前的这道双选题:是不断增加业务流程?还是采用AIOps平台?似乎不难抉择......