原文:《AIOps是什么? 》

       AIOps指多层技术平台,这些平台采用分析和机器学习技术分析从多种IT运营工具和设备收集的大数据,智能运维 aiops自动实时确定并应对问题,从而实现IT运营的自动化和增强。

       Gartner预测,我们会看到当前的IT应用程序会发生剧变,而且我们管理整个IT生态系统的方式也会改变。这些变化的关键是Gartner所称的AIOps平台。

今天,ServiceHot为大家分享的是什么是AIOps,以及推动其发展的力量有哪些。
1、数字化转型与AIOps之路

     了解数字化转型如何引发Gartner的AIOps平台出现非常重要。数字化转型包含云计算的采用、快速变更和新技术的实施。它还要求将关注的重心转向应用和开发人员,更快地开展创新和部署,并且赢得新的数字化用户–机器代理、物联网 (IOT) 设备、应用编程接口 (API) 等–而企业过去无需为这些用户服务。所有这些新技术和用户将传统性能和服务管理战略与工具推到了其能力极限。

Gartner采用AIOps一词描述应对这些数字化转型问题所需的IT运营描述变化。

2、什么AIOps

       AIOps指多层技术平台,这些平台采用分析和机器学习技术分析从多种IT运营工具和设备收集的大数据,智能运维 aiops自动实时确定并应对问题,从而实现IT运营的自动化和增强。

    简单的说,AIOps就是指IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。

       Gartner解释了AIOps平台如何采用图1所示模式而运行。AIOps包含两个主要组件:大数据和机器学习。它要求摒弃孤立的IT数据,以整合观测数据(例如在监控系统和工作日志中发现的数据)和大数据平台内部的交流数据(通常存在于工作单、事故和事件记录中)。

       然后,AIOps针对汇总的IT数据实施一种综合的分析和机器学习 (ML) 战略。这样做的预期成效是获得持续的洞察力,进而采用自动化能力实现持续改进和修复。AIOps可视为核心IT功能的持续集成和部署 (CI/CD)。


3、自动化运维推动数据中心运维的变革

AIOps工具平台是AI人工智能与传统IT运营的融合,当AI的强大功能应用于IT数据中心运营管理时,它将彻底重新定义基础架构管理方式。 比如:

  • >容量管理和规划

  • >资源配置管理

  • >异常检测

  • >风险监控与报警

  • >数据分析与预测

4、AIOPS发展趋势

基于ServiceHot解决方案团队经验、访谈、观察、思考和实践得出的AIOps发展趋势,即行业多样化、产业生态化、数据多样化、场景多样化、场景精细化、算法服务化、技术平台化、落地加速化、成熟度评估的标准化。

趋势一:AIOps落地的多样化。

多种渠道采集到的信息清楚表明:现在开始落地AIOps的,除了互联网公司、银行以外,证券、保险,电力、运营商、工业制造、国家机关、自动驾驶公司也都在尝试AIOps落地。

趋势二AIOps产业生态化。

“产、学、研、用”各方也都在积极跟进,形成了一个AIOps生态系统。在这个生态系统里,专业的人负责专业的事,有越来越多的学术机构从事AIOps原理研究;由机构用户负责提出实际需求,由有预研能力的厂商把AIOps原理上的突破变成实际落地效果;有负责数据采集、接入、存储等的厂商,还有负责集成、交付、维保等的厂商。也就是说,“学、研、产、用”几方专业分工,通力协作。AIOps产业生态化在AIOps落地过程中是一个重要的里程碑,会大力推动AIOps的更快落地。

趋势三AIOps数据多样化。

数据中心的系统物理架构和软件架构都非常庞大复杂。因此我们必须采集、治理、融合多种运维数据源、从中提取对运维最有用的信息,帮助我们了解数据中心最新最全的运行状态, 从而为AIOps的众多场景服务。因此我们说AIOps数据多样化是必然趋势。

趋势四是AIOps场景多样化。

aiops几个大场景:即异常发现、事件发现、事件分析、系统画像、图谱丰富等。每一个大场景会包含很多的具体场景,比如“事件分析”大场景就包括“异常机器定位”、“交易链条定位”、“多维度异常定位”等多种类型的事件分析。也就是说,当用户认识到AIOps能实际帮助到运维的时候,会自发与生态系统中的伙伴共同找到越发多样化的AIOps场景。

趋势五是AIOps场景精细化。

如下图所示,异常检测(也就是通过分析监控数据自动发现运维故障)就包含单指标异常检测、多指标异常检测、多维度异常检测、日志异常检测等等。而单指标异常检测在检测业务、机器、网络、数据库、存储系统、批处理的异常时,其场景和检测侧重点会有所不同,因此需要针对精细化的具体场景进行AIOps异常检测算法的适当调整或适配。

为了避免AIOps场景多样化和精细化导致的落地工作量增加,我们必须把各类场景用到的AIOps算法共性部分抽象提炼出来作为公用模块,为多个场景服务。如下图所示,从日志数据测量出的指标数据的异常检测,就可以复用单指标异常检测这一算法模块,并且这一算法模块已经服务化,即可以通过API直接调用。所以我们说的第六个趋势就是AIOps算法服务化,提升了效率,让整体服务得更好。

在AIOps场景多样化、场景精细化、算法服务化的前提下,第七个趋势,即AIOps自动化运维技术平台化也就水到渠成了。AIOps技术平台化打穿多个场景、多个数据源、多个算法。如下图所示,上面输入的是各种运维监控数据,输出的就是我们所需要的各种运维智能,中间是各种服务化的AIOps算法。不管具体的某个运维场景有什么样的特点,我们都可以通过整体平台进行自由组合和编排,从而高效落地该运维场景,避免传统方法的重复低效落地。

趋势八:AIOps新算法落地加速化。

以往一个新算法研制出来后,需要大量的工程工作配合才能让新算法产生实际效果。有了平台化之后,只需要通过编排把该新算法、新算法所需数据、已有工程工作“串”在一起,就能够快速落地。比如做了一个0day攻击检测算法ZeroWall,我们在一家具体机构进行尝试的时候,一周内捕获28种0day攻击,每天捕获上万条0day攻击,每天误报数0到6个。如果按照以往方法,我们要花大量的时间去做ZeroWall的落地工作,而有了AIOps平台化, ZeroWall的落地工作就快了很多。

趋势九:AIOps和超自动化。

超自动化被Gartner引用为2021年的领先技术趋势之一,它融合了机器人流程自动化(RPA),人工智能,机器学习,业务流程管理(BPM)和高级分析功能,以使进入的业务流程实现自动化。随着大小企业加快其数字化转型计划,超级自动化已成为使人类智能与AI保持一致的一种手段-一种周期性的伙伴关系,这种协作可以看到由数据馈送的任务的自动化,从而帮助人类做出有意义的决策和提高生产力。

5、AIOps 与 ITSM

AIOps工具是运维人员不可缺少的工具,在IT服务管理体系中,充当运维和工程师的眼睛,他可以主动发现基础架构和系统底层已经出现或者即将出现的问题,(避免在客户投诉时才发现问题)从而使得运维管理更加主动。

image

在ServiceHot ITSM一体化IT服务运营管理解决方案中,您可以选购智能监控管理模块,打通设备、服务台、工程师之间的最后一公里,使得发现的问题都能及时传到到相关负责人手上,并且确保在服务级别要求的时间内解决处理,确保IT服务的可用性、连续性,充分体现IT管理价值。