优云云监控:先定一个运维小目标,比方监控它10000台主机

“想做世界最好是对的,但是最好先定一个能达到的小目标,比方说我先挣它一个亿。”,王首富云淡风轻地给各行各业提供了一个很好的Roadmap,包括我们运维。的确,如今数据中心的规模增长速度也已像一匹脱缰的野马,各地都频频建设起超大型数据中心。按工信部的定义,超大型是指规模大于等于一万个标准机架的数据中心,考虑到虚拟化技术的使用,实际上需要运维的主机规模很容易超过十万的级别。所以,首富说的目标离我们也不远,也许很快就可以达到。

而如此大规模的数据,其运维的难度可想而知,我们来逐个分析应对看看:

挑战一:如何把监控配置等运维工作降低到零?

通常情况下,每一个主机或虚拟机的点亮,运维人员都需要为新主机完成配套的运维工作,包括系统部署、IP地址分配、应用部署与监控配置等等。尤其在使用虚拟机技术的数据中心,据调查,目前虚拟机的平均生存时间只有15天,因此其配套的运维工作变得更加繁重。将这些例行的配套工作自动化,可以有效降低运维工作。

在这个问题域中,我们设想有这样一种代理程序,它易于安装、启动后可自动采集本机信息上报、同时开始监控各项重要的指标。那么我们就很容易,将代理程序作为主机系统部署的一部份,同时预置到虚拟机镜像中,那么每点亮一个主机,在监控中心就可以立即发现与监控它,这能有效消除监控配置运维工作。

这样后续新增主机的流程如下,需要运维工作投入仅仅在开机部份,其余过程可全部自动化:

挑战二:如何设计监控数据传输网络,低成本支持海量数据?

对于10万主机的规模,以及目前数据中心秒级的监控需求,其监控数据显然会成为一个大数据。一个主机上报监控数据产生了0.5KB/s的流量,那么10万主机,每时每刻都产生50MB/s的总流量,这当然是无法接受的。

答案是引入采集数据传输中间层,通过中间层有以下优势:

1.合并上报TCP连接,减轻监控服务端的连接压力

2.集中数据压缩上报,并减少传递的数据大小

挑战三:如何对接各类系统,实现大规模监控数据集中化?

数据中心的监控运维不仅仅针对主机,还会有机房环境、业务应用、存储系统等各类系统,这些系统可能也已有各自的监控工具,但运维需要避免工具的碎片化,为运维人员提供统一的监控平台。因此监控系统应当非常容易扩展监控资源与监控指标,让运维人员可以仅用一条命令,就可以提交监测资源与指标,以便随时通过各类Shell扩展监控能力。

具体要求包括:

1.支持http或udp提交接口

2.简洁的数据格式要求

3.不要求预先在平台中定义资源或指标信息

这种方式,运维人员即可使用shell粘合curl命令,快速对接各类系统:

挑战四:如何可视化上万个主机的性能状况?

由于超大型数据中心的主机资源已经达到万级,因此传统的一些TopN报表或多维度分析表格,其显示的数据样本少,缺少交互式的数据分析工具,无法直观的表现数据中心的整体性能情况,也难以分析负荷的瓶颈。

应对这样规模的资源展现,我们需要使用一些大数据的可视化技术:

1.用反应主机负荷的图形元素,在进行宏观的主机展现:

2.通过机房、系统、使用部门等等不同的维度进行切换,洞悉负荷高压区域:

总结

如今在监控领域,已经有很多传统的监控工具,也包括各类开源的监控系统如Zabbix、Nagios等,但如果需要满足万级主机监控,还是有很多的运维平台研发的工作需要落实。而优云Monitor,本身就已充分考虑大规模的监控体量,它的设计中包含了以下特性:

1.通过一键安装快速实现大规模自动化部署,降低监控的运维附加工作量

2.通过代理级联应对各类隔离网络环境与多数据中心,并对网络负荷零影响

3.通过OpenAPI快速实现监控平台的集成

4.多视角切换观察,随意纵览万级主机数据中心

5.可随数据中心规模增长而进一步水平扩展,随时扩大监控规模

相信优云Monitor

作为面向混和云架构的下一代云监控产品,可以帮助大家早日实现运维小目标。

 

作者简介:

蒋君伟

IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验;

先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目;

其主导研发的产品广泛应用于海关、税务、公安、社保、银行、保险、能源等20多个行业。

时间: 2024-10-11 14:56:28

优云云监控:先定一个运维小目标,比方监控它10000台主机的相关文章

监控和安全运维 1.5 nagios监控客户端-1

3. Nagios安装 - 客户端(192.168.0.12)在客户端机器上 rpm -ivh http://www.aminglinux.com/bbs/data/attachment/forum/month_1211/epel-release-6-7.noarch.rpm yum install -y nagios-plugins nagios-plugins-all nrpe nagios-plugins-nrpe  修改配置文件 vim /etc/nagios/nrpe.cfg “all

无监控,不运维!运维监控工具平台建设总结

本文摘自微信公众号<高效运维> 运维行业有句话:"无监控.不运维",是的,一点也不夸张,监控俗称"第三只眼".没了监控,什么基础运维,业务运维都是"瞎子".所以说监控是运维这个职业的根本. 尤其是在现在DevOps这么火的时候,用监控数据给自己撑腰,这显得更加必要,有人说运维是背锅侠,那么,有了监控,有了充足的数据,一切以数据说话,运维还需要背锅吗,所以作为一个运维工程师,如何构建一套监控系统是你的第一件工作. 一.常见的运维监控工具

从无到有写一个运维APP(三)完结篇

前言:自己的挖的坑还得填,此篇为完结篇,环境的搭建参考第一篇从无到有写一个运维APP(一),至于第二篇就跳过吧,写个APP没那么复杂.由于自己现在无业游民,所以没有什么现成的环境,环境就随便找个公网的..再者当下的完成度应该算不上一个完整的APP,但是作为参考,依瓢画葫芦绝对足够了,如果等完整产品,可能得等一段时间了,下面的是该项目的地址. 项目地址: https://github.com/youerning/MyApp(star一下呗) 效果图如下 文章目录: 准备工作 代理 页面框架 获取数

基于zabbix用Python写一个运维流量气象图

前言:同事问我,你写运维平台最先写哪一部分?好吧,还真把我问倒了,因为这是在问最应该放在放在第一位的东西~作为一个工作不足两年,运维不足一年的新手来说,还真不敢妄下评论,其实按照我的思路,觉得最重要的部分肯定是故障处理,报警,但是这一块怎么写?怎么说?肯定不能重复造轮子了,不过我最想写的是报表系统,思路是有的,但是一直耽搁了,详情参考http://youerning.blog.51cto.com/10513771/1708925. 好吧,在回到那个问题,应该先写哪个部分.我没回答,反问他了. 他

运维小屌丝的初程关于RedHat启动流程

2013年,头一次听说除了windows系统居然还有其它系统,上网小小的问了下度娘,发现居然已经有在个人电脑上应用的linux系统了,于是很是兴奋的认为,说不定它可以给更多的电脑用户带来不同的体验,虽不能百家争鸣,但总比得上微软一家独大. 可随着接触,发现越来越不是那么一回事,尽管许多的技术大牛嘲讽windows太低端,可linux无论作为电子商务还是个人电脑都有其不足.更多的是大部分的游戏厂商还是愿意在windows下运行. 我想学学看,至少也能多门技术吧.废话不多写点有用的东西吧. 关于系统

从无到有写一个运维APP(一)

前言(废话):由于本人没有系统的学过JS或者安卓开发,甚至不是计算机专业出身(所以移动开发轻喷),做这个APP也是临时起意,花了一两天发现做一个基于HTML5的APP倒不是很难,所以也就有了这篇文章,再花了两天研究了一下ionic这个框架以及AngularJS,就发现肯定不会很难,所以打算写八到十篇的系列文章,这一系列的文章会从最初的环境搭建,从设计,排版,细化,再到最后的数据可视化,都会在这一系列文章写到,并且大概讲讲我对ionic以及AngularJS肤浅的认识(我会我告诉你我JavaScr

运维小知识之nginx---nginx配置Jboss集群负载均衡

codyl 2016-01-26 00:53:00 浏览385 评论0 负载均衡 转自 运维小知识之nginx---nginx配置Jboss集群负载均衡-博客-云栖社区-阿里云https://yq.aliyun.com/articles/17925 运维小知识之nginx---nginx配置Jboss集群负载均衡 背景 紧接着上一篇博客<运维小知识---CentOS6.5安装nginx配置nginx sticky>安装完成之后剩下的工作就是配置了,其实如果我们想要去做负载均衡session共享

客户端主动运维:查看磁盘监控状况

使用everest工具,查看PC硬盘情况.如下图: Reallocated Sector Count告警提示你硬盘出现坏道.无法修复.正在使用备用扇区.如果坏道过多,将会丢失数据. 作为运维人员,这个可以作为日常工作的一部分.属于主动运维,降低数据丢失的机会. 客户端主动运维:查看磁盘监控状况

PowerShell 运维菜鸟系列-02-批量取n台Windows KEY(2018年大年初一奉献)

系列博文: PowerShell 运维菜鸟系列-01-批量为n台服务器导入PFX证书(2017年除夕奉献) http://blog.51cto.com/dynamic/2071716 项目场景: 2017年,某客户忽然来电:"我们单位正在查正版,我想知道所有加域的Windows电脑的激活KEY分别是什么?". 详细需求: 1. 操作系统版本 Windows XP.Windows 7.Windows 10.Windows Server 2003.Windows Server 2008 R