运维工作普遍要经历这样一个过程:运维质量的提升、运维效率的提升、运维价值的提升。
在运维质量提升阶段,我们首先希望是操作流程是标准化的。一套标准化的操作体系,无论运维环境如何复杂,IT资源如何增加,都能快速应对各种突发业务需求。用一句话来说,就是运维质量不会因运维环境的改变或运维人员数量、经验的多少而改变。
举个例子来说,要上线一套业务系统,需要经过软硬件的安装、部署、配置管理、监控、安全扫描等各个操作。对于企业来说,这往往需要多个部门的协同操作,费时费力。但是,如果能将所有的系统上线操作集中为一套标准化的操作流程,自动去完成,那么即使是运维小白也能快速交付运维工作。
在实现运维流程的标准化之后,我们会对运维效率有更高的要求,这不仅关系到运维工具对庞大IT资源数量的承载能力,也要求对运维场景复杂程度有清晰地掌握。 因此,我们希望有自动化、批量化操作的运维工具,代替运维人员去从事低效率、高强度、易犯错的运维工作,让他们的能力与精力有更大程度的发挥,以达到运维效率的提升。
当然,优秀的运维人员对工作的要求不会仅限于此。由数据采集存储转向“数据挖掘”是当下运维平台的发展趋势,这包括人工智能、数据分析等相关逻辑判断、决策支持。运维平台的智能化使运维工作不仅能满足当前运维场景,也为未来的业务需要奠定了基础。
随着信息化建设的不断发展,各企业为保证业务的正常运转,对运维工作的重视程度越来越高。在当下信息系统建设及数据规模扩张的速度下,没有一套高效智能的运维管理平台,运维工作将蜗步难移。
目前,企业的运维现状普遍是运维人员少,工作负担重,面对复杂的运维环境,怎样的运维平台怎样才能消除不同经验层次运维人员的认知偏差,使他们的运维工作由量到质的提升呢?个人总结了对于新一代运维平台的几大需求:
1. 流程化操作、自动运维
流程化操作可以说是运维平台的基本能力。从资料中了解发现,目前运维工作的常态是:监控系统用 Nagios ,流量监控用 Cacit ,集群监控用 Ganglia,故障报警用Nagios……。按照这种业务流程,对于一套信息系统的上线,从负载均衡、Web集群、中间件、数据库的部署与监控,需要N多步骤,花费极大的时间和精力,期间还不能避免人工操作所引发的错误。因此,我们需要一套集中式的流程化部署工具,来完成从安装部署到监控告警的各个步骤。
对于百台甚至千台级的设备数量,只具备流程化的操作对于达到运维质量的提升还远远不够。我们希望只需提供各项资源的IP地址、登录权限,运维平台能批量化地实现系统配置参数、运行指标、运行日志等信息的自动采集和分析,从而实现运维效率的提升。并且,业务驱动应该成为运维工作的关注重点。企业的目的是保证业务能不间断正常运转,关注单台设备或单个服务,只见树木不见森林,这对运维工作的辅助作用乎其微。只有以业务为核心,对业务系统的各个支撑服务自动分析,实时监视,才能达到对整个业务运行状态的掌控。
2. CMDB:运维工作的入口
CMDB即运维人员所熟知的资源配置管理。多数运维平台,只是把各项IT资源的配置信息录入到系统就算完事,并没有对资源的监控和管理起到太大作用,更不用说以业务为纽带所展示设备、软件间的关联关系。如果能够通过CMDB实现资源的自动发现、自动监控及告警,并将已监控资源的配置信息自动纳入数据库中,分类管理,以此来实现资源透明,这样,将会使整个监控范围的资源管理更加清晰、轻松。
3.资源与业务的关联展示
在设备规模庞大的企业,资源间的关联关系复杂且难以整理,如果仅把资源的配置信息、运行状况的单层级展示出来,而没有各项资源间的关联展示,是难以对业务系统的整个架构以及资源的使用情况有详细了解的,这无疑增加了运维工作的难度。运维平台如果能提供网络拓扑图以及系统架构图,帮助运维人员理清设备间的连接关系,并反映业务系统所使用软件的关联关系,将使运维工作事半功倍。
要想构建一个新一代的运维管理平台,切实去解决运维工作的痛点,解放运维人员着实不易。OpSmart智能运维管理平台,将“以系统为核心,以配置为基础”作为产品建设基准,完美实现了上述三大需求。能自动分析系统间的关联关系,生成信息系统的架构图,基于网络配置自动生成物理拓扑关系图;通过系统级的运行监视,帮助运维人员及时发现故障并迅速定位故障原因;搭配高效的数据采集算法和告警效率,准实时采集日志及系统状态,实现秒级监控、分钟级告警,帮助运维人员自动、及时、准确地掌握各项资源运行情况和配置信息。可以说, OpSmart让运维经验和能力不再成为运维工作的决定因素,它取代了运维人员的配置、安装工作,实现了自动分析和故障定位,并帮助企业科学合理规划、管理好各类IT资源。拥有OpSmart,人人都可以成为运维专家。