原文:《高校智慧校园建设 一体化运维平台方案》

1 高校智慧校园建设目标

提高高校智慧校园设备现代化、科学化管理水平,用新的、带有超前意识的智能运维管理方式来取代传统的、滞后的管理方式,变被动维修改为主动、智能监控,变无序管理为流程化高效管理,为高校智慧校园设施运维提供一个智能化、流程化、可视化的集中、统一、高效、个性化的管理门户平台。

1)对省内高校内外网设备实行统一智能管理,系统自动了解各设备的实时运行状态,及时发现设备的故障,完成运维流程化记录;

2)及时了解IT设施的运行趋势,故障处理效率有待提高,故障处理的预见及趋势分析;

3)对业务系统整体健康状况和运行趋势的监测,判定业务系统是否存在运行瓶颈及潜在运行风险,从而确定是否需要调优或采取主动防范风险的措施;


2 详细方案描述

2.1 运维管理中心

2.1.1 系统逻辑架构

  运维管理中心采用模块化设计,有着最优的数据处理性能及用户体验,得益于平台采用了最前沿的技术及科学的系统架构。平台主要分为四层结构,分别是数据源接入层、采集层、数据处理层以及应用管理层。

                                             

图表:技术运营中心逻辑架构图

2.1.2 数据接入

数据接入层负责将机房环控系统、运维监控系统、及其他业务系统的告警数据整合,此外还提供更提供强大的 REST API 以及方便的 Email、短信集成方式,可将任何系统的告警数据快速接入到技术运行中心。

2.1.3 采集层

运维管理中心主要以被动接收和主动采集两种方式,针对内网中的数据可以通过运维监控工具进行采集,并上传给运维管理中心;针对其他工具的告警及邮件、短信告警数据主要采取主动抓取数据。

2.1.4 数据处理层

数据通过被动接收或主动采集到达运维管理中心后,数据进行阀值比较、告警触发、通知触发、以及性能数据存储等一系列处理。

2.1.5 应用层

数据经过一系列处理后,运维管理中心以项目的角度进行数据集中展现、数据分析,并提供告警、通知、权限等的管理。

 

2.2 运维监控系统

2.2.1 对基础IT架构的全面监控

2.2.1.1 对主机操作系统的监测

对各种操作系统(Windows、Linux、Solaris、HP-UX、AIX、中标麒麟、浪潮天梭K1)基本性能指标的监测。如 CPU 性能相关参数,系统逻辑及物理磁盘性能相关管理参数,系统内存性能相关管理参数。对基础应用服务监测。可以监测的指标有:HTTP/HTTPS,SMTP/ POP3,FTP,DNS服务,DHCP服务,LDAP。

主要监测指标如下:

•  CPU利用率:显示系统、用户、空闲时间的百分比

•  虚拟内存(Virtual memory)利用率

•  文件系统使用情况:显示监测UNIX分区、Windows逻辑盘的剩余空间及使用率

•  物理内存使用率:监测内存的使用率及剩余空间

•  监视重要的文件:如发现文件被修改或文件大小迅速增长时,向系统管理员报警和产生相应的动作

•  端口监测:能够定期监测主机上TCP/UDP端口的状态和占用进程,监测的端口可由用户指定,并可以显示系统所有的端口占有情况

•  进程监测:能够定期监测进程多个实例、子进程、进程对CPU/内存的占用情况等等。当重要进程因意外原因终止时,可根据需要自动重启,并将报警信息写入事件日志

•  远程Ping监测:能够指定远程IP设备,定期监测主机和指定远程设备的ping响应速度,丢包率等

•  对于UNIX操作系统:可以监测系统平均负载、IO读写情况以及虚拟内存、交换空间、Paging Space等的使用情况。对于Windows操作系统,可以监测操作系统Event Log、NT服务

图表:操作系统状态监控视图

2.2.1.2 对网络设备的监控

运维监控系统 对网络设备状态监测主要通过SNMP方式为主,能够监控国内外主流厂商的网络设备,可以监测的相关参数有:CPU使用率、内存使用率、端口管理和运行状态以及流入流出量、流入和流出使用率、单播接收和发送包数量、网络流量(平均流量和最大最小值等)和带宽、网络链路联通性等。还可以通过Syslog、Trap协议被动接收网络设备发送的告警,如安全设备一般都会主动将其受到攻击的信息通过Trap向管理平台发送。还可以通过ICMP协议检测线路的性能。监控系统对网络设备状态监测和管理包括以下重要的指标:

•  网络设备 CPU 的使用率、网络设备的内存使用率、网络设备接口的丢包率和误包率、广播包、非广播包、网络设备接口到对端设备接口的丢包率和网络延迟。

•  提供网络设备相关硬件信息及运行状态的数据报表

•  流入、流出广域网、局域网的网络流量监测。

•  支持基于设备端口的实时性能分析,支持链路的实时性能分析。

•  为管理员提供Ping、Tracert、Nslookup、snmp 扫描、Ping扫描、MIB浏览器及MIB编译器等检测工具。

•  提供网络历史性能数据的记录与分析管理,以按每分钟、每五分钟,每十分钟、每天、每周、每月等间隔时间生成历史数据分析报表,报表样式分为柱形图、线形图、面积图、仪表图等,为用户分析网络运行情况做出有力依据。

•  VLAN 的监测,如 VLAN 端口的状态和流量等。

•  支持端口的95值计费功能;

 

图表:网络状态监控视图

2.2.1.3 对数据库的监测

运维监控系统 通过JDBC,对主流数据库进行监测,包括Oracle、Oracle RAC、DB2、SQL Server、Mysql、达梦数据库等,能够监控数据库关键性能指标,如表空间、锁状态、会话状态,并且能够把占用数据库资源较多的SQL语句进行排序,方便管理员查找数据库瓶颈。

监控系统对于数据库可以监测以下重要性能指标:

•  数据库可用性监控:能够监控数据库引擎的关键参数、数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种锁资源情况、监控数据库进程的状态、进程所占内存空间等

•  用户表空间和系统表空间使用率

•  数据库事务日志空间的使用情况监控

•  数据库关键进程的内存使用以及关键进程的状态

•  能够监控可用的锁资源状态

•  对于Oracle RAC,能够监测到RAC状态、集群的状态、表决磁盘信息、TNS状态、ASM状态等,并通过一体化视图进行全局状态展现

 

图表:Oracle 数据库状态一体化视图

 

图表:Oracle Rac 集群环境状态一体化视图

2.2.1.4 对中间件的监测

对于中间系统可以支持对于主流中间件的性能指标监测,包括:Weblogic、Websphere、Tuxedo、Tomcat、Apache、IIS、东方通等。监控指标包括Thread Pools的状态和监测WebLogic服务器应答时间,所有web应用的指标,用户会话等,主要性能指标如下:

•  对所有web应用的指标的监控

•  对日志文件的分析

•  对Jms目标、会话,连接进行监控

•  JDBC Pool、等待连接的时间 、正在使用的数据库连接所占比例

•  JTA事务错误情况

•  JMS消息服务状况

•  自定义应用Mbean (JMX) 属性等

•  服务器线程池工作状态

 

图表:中间件状态监控

2.2.1.5 对存储设备的监测

运维监控系统 可以通过Agent、SNMP 、SMI-S或 Trap,对用户架构中核心智能存储等进行监测,如EMC系列存储(VNX、DMX、CLARiion)、QuanTum 、HDS、IBM_DS、IBM_V系列、HP系列存储(3PAR、EVA)、华为,浪潮AS系列等。

监控系统对存储设备状态监测和管理包括以下重要的内容:

•  存储 IOPS;

•  磁盘空间,可用率,运行状态;

•  电源,风扇状态;

•  控制器状态;

•  对性能数据的采集支持自动化调度的方式,支持Cluster、Array、Volume等不同级别的性能监控,能展示设备历史和实时的磁盘性能状况以及Write I/O Rate、Read I/O Rate、Read Cache Hits、Write Cache Hits、Read Data Rate等性能指标;

•  支持存储性能及磁盘、主机、盘笼之间的架构图展现,如下图:

 

图表:HP 3PAR存储性能视图展现

2.2.1.6 对云计算的监控

   云计算所属的虚拟化环境相对于传统的物理环境,变得“看不见、摸不着”,对于管理也是一种新的挑战。运维监控系统 云计算监控管理通过图形化方式构建出宿主机、虚拟机、虚拟网络、数据存储间资源使用情况,从全局到局部的一体化视图,便于用户直观全面了解当前虚拟化环境的健康状况。

运维监控系统 对于云计算架构从物理层到虚拟层实现全面的监控,将每个虚拟主机操作系统当作独立服务器,实时监控虚拟机的资源性能,并在资源性能不足时发出警告,提醒管理员关注并及时从物理机资源池中分配更多的虚拟资源。对于Hyper-v虚拟化平台的监控,能够实现在虚机发生漂移后产生告警,提示用户当前虚机漂移的目的IP信息。

运维监控系统 能够实时监控到不同物理机的整体资源性能,并在资源性能不足时发出警告,提醒管理员技术扩容硬件资源。

运维监控系统 能够动态监控物理机与虚拟机之间的动态漂移,实时展现每一台物理机上正在运行哪些虚拟主机系统,并以图形化界面展现和查询物理机IP与虚拟机IP的对应关系,能够监控主流的虚拟平台,包括Vcenter、Vsphere ESX、KVM、XenServer、Hyper-V、OpenStack、Docker、FusionCompute。

•  宿主机的基础信息

•  物理资源状态及使用情况(CPU、内存、存储、网卡流量)

•  虚拟机一览表

•  磁盘读写、网卡流量曲线图

•  虚机漂移等,如下图:

图表:虚拟化平台一体化视图展现

2.2.1.7 服务器底层硬件监控

运维监控系统通过带内、带外方式两种方式对PC服务器、小机及刀箱底层硬件状态进行全面的监控,包括电源、风扇、物理硬盘、Raid卡、插槽等硬件信息,代替管理员的日常机房巡检工作,使管理员实时了解到服务器底层硬件的运行情况,此种监控方式不通过操作系统,即使系统关机的状态下仍可监控服务器的基本硬件健康状况。

对于X86服务器,运维监控系统能够自动采集到服务器的品牌、型号、SN、PN等资产配置信息,并且支持和CMDB对接,实现配置信息同步。

 

图表:服务器硬件状态一体化视图展现

 

图表:服务器资产配置信息采集

此外还能够对服务器的Errorlog、Eventlog硬件报错日志进行监控,从多个维度实现对服务器硬件信息的全面监控。

 

图表:对AIX服务器硬件errorlog监控信息

能够监控到的服务器类型包括:IBM、DELL、HP、ThinkServer、AIX、虚拟化宿主机服务器及其他支持IPMI协议的服务器。能够监控到的指标如下图所示:

 

图表:服务器底层硬件监控信息

2.2.1.8 资源的监控添加方式

运维监控系统 产品对被管资源的数据采集支持“自动发现”和手工输入两种方式配置被监测对象的配置参数,并通过主动轮巡机制,使用SNMP、Agent等多种采集方式来实现性能数据的采集。对于Agent采集,运维监控系统可以实现批量部署,节约部署时间成本。并且可以通过多种方式来集成和接收第三方管理工具和用户私有系统的告警信息和数据。

图例:自动发现

2.2.1.9 数据获取方式

支持的部分采集协议如下:

SNMP get (polling),SNMPtrap,Syslog,TCP,POP3,JDBC,ODBC,WMI,Shell,HTTP,HTTPS,ICMP,DNS,FTP,JMX,SMI-S等协议类型。

系统能够依据管理的需要,定时向需要监测的管理对象(可以是一个设备或者一项服务)发出监测请求,运维监控系统 监测系统的数据采集间隔可以灵活配置,支持最小5秒的轮巡间隔;并将记录返回数据作为告警和性能诊断的依据。可以支持SNMP轮巡的数据采集,SNMP协议支持V1、V2c和V3多种版本;可以支持在被管主机服务器上使用代理程序Agent的采集方式;系统可以提供两种Agent分别用于Unix/Linux和Windows服务器平台;支持单一的Agent模式,即当主机服务器上的被监测应用项目发生变更或增加时,无需更换或添加额外Agent程序。使用Agent数据采集方式,可以对被管服务器进行文件扫描、目录检测、接口调用等方法来扩展监测的范围。监测系统管理平台支持对业务应用系统自身关键性能点的自定义监控;运维监控系统 提供界面配置的简易方式来扩展自定义的个性化监控器。如图所示:系统支持用户可以通过自定义Shell脚本、WMI脚本扩展个性化的数据采集能力。同时个性化的数据采集能力能支持单位的换算以及比率或变化率能的计算。

图例:自定义脚本指标

可以支持其他多种协议进行主动式的数据采集,包括:

TCP端口探测、POP3、JDBC、ODBC、WMI、Shell、PerfMon、HTTP/HTTPS、Ping、DNS、FTP、JMX等。

2.2.2 资产管理

资产管理是IT运维管理的核心枢纽,一个准确的资产管理能帮助运维人员更高效地管理IT基础设施。从以往经验来看,要想建设好资产管理,首先要降低数据录入繁琐性,其次是保证数据的准确性,再者是提高易用性,可以灵活的为IT服务管理提供支撑。

 

2.2.2.1 精细化的资产分类

资产分类极大程度决定数据管理的颗粒度,科学的分类有利于维护资产管理的后续关系。运维监控系统 依据多年的运维经验, 默认的分类和现有的监控分类无缝吻合,极大的方便了后续的数据自动采集,定期更新等

图表:资源分类及显示参数

 

2.2.2.2 全面化的资产档案

资产档案管理数据不仅仅需要分类明确,对于每类资产信息的展现也需要深入全面,运维监控系统提供自动发现配置信息功能,可以发现绝大部分的资产配置信息,包括网络设备、服务器、操作系统、PC机等。

对于服务器硬件,系统可自动发现制造厂商、型号、SN、PN等关键信息,并且可以自动同步到相应的资产记录当中;对于维保时间,可通过手动自定义维保时间,当维保到期,出现高亮或者告警提示,代替资产管理人员维护资产生命周期。

图表:精细化的资产档案

2.2.2.3 简易化的资产维护

当在系统添加设备监控时,系统会自动发现配置信息,根据关键字自动创建每条资产数据,后续会在间隔时间内自动检查配置信息是否变更,如果出现变更,可及时发出告警;另外,还提供手动输入及资产导入功能,方便的初始化资产数据信息,降低初始化成本。

图表:资产记录详细信息

 

2.2.3 对监测数据的分析展现

运维监控系统提供统一的管理和展现页面,同时支持灵活定义的管理视图配置,为不同角度和层面的管理者提供不同的管理视图。其中包括自定义Portal视图、资源状态视图、业务关联视图、以及自动拓扑展现、走马灯展现等。在各种类型的视图中,可以方便地查看到被管资源的状态、主要性能信息以及告警信息等。

2.2.3.1 我的关注Portal展现

运维监控系统对于我的关注页面的显示模块、显示位置、显示内容都能完全自定义,如下图:

运维监控系统 首页我的关注Portal展现

2.2.3.2 基础数据大屏展现

运维监控系统大屏展现视图以动态模式为管理者提供全局业务状态一览。业务健康度视图以动态扫描的方式清晰的呈现业务的层级结构以及健康度、故障信息,扫描到的业务区域能够提供健康度信息、业务依赖的资源信息以及告警信息。业务状态矩阵图可以批量显示多个业务的基本状态信息。趋势对比图则很好的展现了核心关注指标的历史运行信息。从整体到局部,运维监控系统的大屏展现无疑通过管理者的视角为业务进行了一次健康体检!

动态可视化业务大屏展现视图

运维监控系统不仅支持对业务健康度的大屏展现,而且提供了资源的全局状态展现。资源状态统计能汇总监控系统中全部的资源情况,并且可以通过饼图统计出各类告警级别的资源占比。运维监控系统特有的资源状态散点图,能以动态方式呈现海量资源健康状态分布,方便运维人员从全局观看资源健康情况。

动态可视化资源大屏展现视图

 

2.2.3.3 资源状态视图

运维监控系统通过仪表盘、曲线图等可视化的方式展现被监控资源的主要指标状态,如主机系统、云计算、weblogic中间件、数据库、服务器硬件等等,如下图所示。

资源视图展现

2.2.3.4 业务拓扑展现

运维监控系统提供了业务的管理视图,业务的管理视图以一个CIO的视角来查看和管理整个业务和基础IT元素之间的关系。在一张业务视图中就可以看到组成这个业务的各个基础IT元素的运行情况;

运维监控系统定义了IT架构的四个层级,通过监控平台梳理业务的层级关系,从用户的视角展现出真实的业务流向及层级之间的依赖关系,实时了解到该业务系统包含有哪些资源,有故障的资源在哪个层级,快速定位故障点。

底层的设备故障直接影响到上层业务的运行,通过业务拓扑视图,解决了故障定位不清晰,层级依赖不清晰的问题,为“自上而下”排查故障提供依据;

能够实现以下主要功能,包括:

·         在全面采集IT基础架构的基础上,建立核心业务应用系统与IT资源和指标之间的逻辑拓扑关联视图

·         业务拓扑视图支持同一个IT设备或指标关联多个业务对象,指标的状态能够依据所定义的关联关系,传递到多个业务拓扑分支中。

·         业务拓扑视图中实时刷新业务和相关IT资源的健康状态,以不同颜色显示;可灵活定义刷新时间;

·         业务拓扑视图支持灵活缩放比例显示。

·         拓扑图可以JPEG文件格式导出为图片文件。

·         支持背景图、图标文件的自定义设置。

·         业务拓扑视图提供定义多个层次,比如一个复杂的业务可以定义多个子业务系统。

·         与管理员权限结合,可以实现不同管理权限的用户登录后查看到不同业务的逻辑拓扑监控视图。如下图:

图表:业务关联拓扑视图

2.2.3.5 自动拓扑展现

运维监控系统提供了自动发现拓扑功能,能够发现全网拓扑、指定网段拓扑、路由拓扑,能够自动关联系统已经监控的设备的状态在拓扑图上实时显示。系统还支持自定义拓扑功能,管理员可以自行增加各种管理视图,并以可视化图形的方式展现各种管理视图。每个管理视图都将展现不同资源之间的关系、资源的当前状态和告警报警情况。每个管理视图也可以设置不同的标题和背景图。在自定义拓扑页面能够显示拓扑元素的告警信息和资产信息等数据。

自定义拓扑增加和编辑的方式也非常方便,只需要将资源树中的资源或指标拖拉的方式就可以加入视图中,所有的操作都是可见即可得,如下图:

图表:自动发现拓扑

图表:自定义拓扑展现

2.2.3.6  “走马灯”轮询展现

运维监控系统对于不同用户创建的自定义Portal视图,可以通过 “走马灯”的方式进行多Portal视图的轮询展现功能。通过对不同的自定义Portal视图进行间隔的切换展现,能够使相关的人员能够知道当前IT网络环境中所关注资源的整体运行状态,了解每个部门或者用户重点关注的资源实时状态,如下图:

图表:“走马灯”轮询展现视图

 

2.2.4 监控数据报表

2.2.4.1 运维监控报表

运维监控系统内置二十多套统计报表默认模板,管理员可以指定统计报表的时间区间,并选择指定将哪些资源加入到统计报表中。

报表定支持定时发送功能,管理员可以设置报表统计类似,统计时间段,并设定报表定时发送时间,系统会在预定时间自动发送统计报表到指定接收邮箱中,让运维人员无需操作系统页面也能及时了解到自己关注的信息。

图表:统计报表自动发送邮件设置

同时系统还支持手动发送报表至指定邮箱中,用户在页面浏览某项报表时,如果想将此项报表发送到指定邮箱中,则即可在页面进行相应操作:

图表:手动指定发送某项统计报

2.2.4.2 自定义运维报告

用户在报告模板中可以灵活排版,除了自己编写文字报告,还可以嵌入动态的数据对象,包括:被监控的资源指标数据、趋势曲线、已经存在的统计报表。 系统依据报告模板动态生成的电子运维报告,并以WORD格式呈现和导出。

用户可以依据运维管理的需要定义自己的运维报告模板,比如日报、周报; 又比如:主机运维报告、网络运维报告、数据库运维报告等等。

图表:自定义运维报告设置

2.2.5 告警事件管理

2.2.5.1 事件的集中管理

A.   运维监控系统 支持大集中的事件管理功能。

事件来源不仅包括监测指标违反门限阈值时产生的异常事件;还要支持通过SNMP Trap 和Syslog 接收的第三方系统产生的事件。

B.   运维监控系统 支持灵活的事件分类管理。

管理员可以定义事件的各项信息匹配条件实现对事件进行任意的分类定义。并能依据自定义分类进行查询和统计;

图表:灵活自定义事件分类规则

C.   事件的级别

根据事件信息的严重程度,将事件信息划分为如下级别:紧急事件、主要事件、次要事件、警告事件、正常事件;不同级别的事件用不同颜色显示。

D.   事件的集中展现

提供集中统一的界面显示来自不同资源的事件信息;不同级别的事件用不同颜色显示;异常事件发生时,应自动将异常状态显示在各类监控视图中的相关资源和业务对象上。并实现从状态监控视图到事件管理界面的跳转。

E.   多用户分权限的事件管理

事件管理与帐号权限相关联,不同管理员进入事件展现界面,应根据管理员帐号权限决定可以访问的事件范围;

F.   管理员可以将最近的未处理事件列表加载到首页Portal中重点关注;

2.2.5.2 事件的智能压缩

运维监控系统 支持事件的屏蔽(黑名单)、压缩和过滤策略,减少误报。

支持对持续重复事件进行压缩显示,避免大量重复事件造成信息拥堵;

支持连续N次采集违反阀值才生成异常事件;

支持M次采集中至少发生N次才产生事件等事件分析策略;

图表:自定义事件屏蔽规

图表:事件连续性阀值

图表:事件间隔阀值

 

2.2.5.3 事件的处理流程

运维监控系统 提供事件确认、反确认、清除等规范的事件处理机制。

事件的管理应能够区分“未处理事件”和“已处理事件”。管理员只需关注未处理的事件

对于已经确认并清除的事件,将保存为已处理事件,供查询和分析。

监控平台记录每个事件从产生到确认、清除的响应时间都能够记录、统计、查询,可以作为监测人员岗位考核的指标依据。

管理员可以将最近的未处理事件列表加载到首页Portal中重点关注;

2.2.5.4 事件的报警通知策略

事件应能够通过声音、邮件、短消息、微信、首页提示等方式进行报警通知;

为避免重复信息的干扰,报警发送策略支持灵活配置,进行每次发送、只发送一次、最多发送N次的策略配置。

报警通知策略支持按事件分类发送到系统用户/用户组,也支持手工填写系统帐号以外的邮件地址和手机号码。

图表:事件的通知方式

2.2.5.5 告警通知模板

监控系统提供默认的告警通知模板,也可以灵活的手动设置告警通知模板,完全自定义设定通知的具体信息,方便发送邮件或短信,直接选择填写的模板就可以。

选择通知方式后,点击详细信息按钮就查看到发送给用户的模板内容,方便查看,如下图:

图表:告警通知模板设置

2.2.5.6 事件的分析和统计功能

运维监控系统提供趋势曲线、未处理事件展现、已处理事件展现、事件报表、事件的邮件告警、事件的声音告警、事件的短消息告警等帮助系统管理员进行实时查询、分析和统计。对于分析的结果可以进行自定义时间的自动刷新,日志实时分析支持在内存中完成,提高反应速度。


更多解决方案,请点击