开启数据中心主机运维的上帝视角

常常有这么一句话在激励每一位运维人员,“不以故障多为耻,而以恢复快为荣。”运维人员就是要快速定位问题,分析问题,排除故障,快速恢复来保障生产业务不受中断。然而,现代大型数据中心,运维人员要管理的系统节点比以前繁多,为了掌控数据中心的实时运行情况与定位问题,需要花的时间成本已经长得无法接受。

极好的可视化手段,能够让运维人员在纷乱的监控资源群中快速定位故障。我们用以下几点来了解这些功能。

一、全面观察,实时监控

我们抽象的把每一个监控的主机都当成一个圆圈,有多少监控的主机,就出现多少个圈。给每一个圈圈设定一种颜色,我们就很容易区分绿色、黄色、红色。我们把绿色归为健康色,黄色归为警告色,红色归为严重不健康色。这样就能直观的观察到每一个设备的健康状况,比单纯的去看数字更加直观和有趣。下图是优云monitor对一批监控设备,以cpu使用率的维度,实时观测到的结果示意图。可以一目了然的看出大部份主机CPU使用率是正常的,而不正常的主机则非常突出,我们可以马上定位。

二、多种维度,上帝视角

作为高效敏捷的运维人员针对问题环境需要快速的排除障碍。每个主机设备在安装代理的时候,我们都会给它设定一个标签,用来标记这台设备的身份。比如一批设备都是用于A业务,给每个主机设备上的代理打上一个“业务:机器1”类似这种{key:value}的标签,我们在排除障碍的时候,可以根据不同的标签来分组定位分析问题。

上图我们通过对具有 “数据中心” 同时又具有“业务系统” 标签的设备进行分组来查看问题。观测到某个业务CPU使用率存在一个高负荷的状态,这个时候我们用鼠标滑动到圈圈上面,看到它的一个主机名称,IP,CPU使用率具体的一个数值。对于运维人员来说,这个就很容易进行针对性的解决问题。运维人员靠标记设备的方式,可以组合出多维视角来观测你的设备在不同的场景下整体的运行情况。

我们从系统的瓶颈分析,来观察我们业务系统的一个CPU使用率的一个维度视角。对于瓶颈的分析有很多的视角,尤其是对于应用层级的监控,比如oracle,mysql,tomcat,zk等等指标性能状况的瓶颈分析。如何来实现这个各种指标的性能分析呢?

三、海量指标,随需调用

采集了大量的指标数据,包括主机上安装的各类应用。我们可以随时过滤显示包含某类指标的节点,并用这个指标来渲染主机显示颜色。例如cassandra的应用,运维人员就可以根据cassandra的指标维度进行实时监控主机的状态。

之前在看TED的一个演讲,其中讲到了这么一句话:“长期与短期目标,把一个长期目标分成不同小的阶段和不同的任务种类,每完成一个阶段和任务获得奖励,才能坚持下去。”

运维的长期目标是了更好的保障服务环境的正常运行,过程中需要不断的从各个小的方面逐个突破。借助优云Monitor的三个特点,全面观察、实时监控,多种维度、深入核心,再加上海量指标作为基础保障,对资源全方位的瓶颈分析、定位,在每一个小目标过程中,都是不可或缺的力量来源。

时间: 2024-12-20 11:43:33

开启数据中心主机运维的上帝视角的相关文章

如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多规模庞大的集群系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要上下打通地去做运维工作. 当一个数据中心的规模非常大,面临

[运维] 第五篇:数据中心改善运维,ITIL与ISO20000如何选择?

企业数据中心需要改善运维现状,提高运维水平,更好的为业务服务,ITIL肯定是不二的选择,因为毕竟ITIL是运维方面的最佳实践.但是ITIL只是告诉你如何才能提高运维能力,但是并没有告诉你怎么才能在你的企业里做好ITIL的落地工作,进而真正对运维发挥效果,所以具体怎么做,还是得你按照ITIL的理念去结合企业实际情况去落地.落地的时候你可能会有两个选择,是通过ITIL流程落地呢?还是去通过ISO20000认证呢?          因为本文不是讲ITIL和ISO20000的帖子,所以具体的讲解可以通

3D可视化平台助力数据中心IT运维!

IT运维部门核心价值是保障业务系统的正常运行,而支撑业务系统的IT环境又非常复杂,涉及人力.网络.服务器.IDC.机柜.各类应用等等资源.任何一个环节出现问题,都将"牵一发而动全身".可见,IT系统资源监控与管理非常重要. 因此,我们需要将影响应用系统稳定运行的几个要素数据3D可视化.比如:基础设施资源使用情况:应用性能指标及系统整体运行情况,如这个系统是否可用.整体健康度等.总体来说,可以用到的常用可视化手段有数据统计.拟物化关系.流程关系.各种图表展现以及3D动画技术等. 在当下大

云主机运维远程协助还需要下载软件?一键就搞定了

我们在对云主机进行日常运维的过程中,往往会使用远程协助软件寻求他人帮助.但是在使用远程协助软件的过程中,往往会遇到许多问题,包括:要求协助双方均下载客户端并同时在线,协同过程无法回溯等,这些问题给双方带来了诸多不便,尤其是遇到紧急问题或者突发故障时,协助方无法立即在线解决问题,导致运维效率低下. 因此,为了更好的解决这个问题,小编在测试并试用了众多远程协助类软件或工具,发现行云管家的远程协同工具正好解决了上述问题.简单归纳了行云管家远程协同工具的几个功能: 1.一键协同:无需安装软件,只需一个分

开启数据中心篇章

依据个人职业规划及后期发展要求,于2019年7月在乾颐堂报考CCIE 数据中心方向,本想在CCIE变革之前考完,无耐DC的考试位置每天只放一个, 现在的位置已经到了11月份,基于以上考虑,先暂时不考笔试,完善基础学习后,视情况而定. 2019/7/4 周四 原文地址:https://www.cnblogs.com/xiaomai-rhce/p/11130294.html

(越秀中心网络运维)远程管理路由器的网络设备操作

远程管理路由器 1,首先新建一个华为拓扑图的路由器链接2,配置IP地址和子网掩码(1)配置RA3260-AR1的IP地址<Huawei>system view 进入系统视图[Huawei]interface GigabitEthernet 0/0/0进入接口千兆以太网模式0/0/0[Huawei-GigabitEthernet0/0/0]ip address 192.168.1.1 255.255.255.0输入IP地址和子网掩码(2)配置RA3260-AR2的IP地址<Huawei&g

数据中心的自动运维之路

自动化运维其实也算是老生常谈,一谈谈了十几年,但却一直没有质的提升.数据中心的运维工作反而变得越来越繁重与复杂,当然这和这些年数据中心巨大的变化紧密相关,数据中心承载的各种应用越来越多,运维工作也变得异常复杂,简单的自动化运维已经不能彻底解决数据中心运维工作效率低下的问题.以前,数据中心运维人员就像流水线上的一名工人,不断重复地做着同样的工作,枯燥又容易出错,自动化运维就是要引入一些工具,通过这些工具来替代运维人员来工作,从而减少人力成本,同时提升数据中心的运维水平. 那么自动化运维,其实就是向

[运维] 第七篇:数据中心监控体系建设方法论

无论是传统数据中心,还是云时代的数据中心,运维监控都是运维工作的重点,而且运维监控是一个整体,你必须尽可能监控的全面和深入,你的监控数据才会更有价值,例如你想监控业务应用,可是如果没有基础监控数据(OS.数据库.中间件.网络等),你觉得你的监控会到位吗?那么如何建设一个全面和深入的监控体系呢?        首先看监控体系的规划:              再看监控体系的梳理:           监控体系的落地思路:            监控体系建设的持续改进:           监控是一

运维好数据中心的四大法宝

对于数据中心,运维工作的重要性不言而喻,在数据中心生命周期中运维管理是历时时间最长的一个阶段.数据中心运维的工作主要是对数据中心各项管理对象进行系统的计划.组织.协调与控制,是信息系统服务有关各项管理工作的总称,具体包括对机房环境基础设施部分的维护,系统与数据维护,管理工具的使用,人员的管理等方面.投资巨大的数据中心,为了能够尽快得到收益,就需要在运维的工作上多下工夫,切勿进入"一流设备.二流设计.三流运维"的不良运营之中,高品质数据中心运维的工作至关重要.那么如何才能提升数据中心的运