【工具】ganglia 监控技术分析

Ganglia是一个分布式的监控工具,用来对Grid和Cluster上面的节点进行监控,利用它提供的web界面可以看到每个节点状态,并且可以输出 图形化的表示。 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次 结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。

名词说明

Metrics : 监控电脑的运行数据,这个词中文比较难翻译,英语中有度量的意思,下文我就不翻译,直接用原词。

Node    : 一台电脑,或许拥有多个CPU,中文称之为节点。

Cluster : 一组节点,中文称之为簇。通常节点之间拥有达到G比特的高带宽,簇内通过组播协议,每个节点组播自己的数据,所以每个节点拥有整个簇的状态,这种冗余设计可以提高簇的鲁棒性。一般簇内节点为相同的系统和体系结构,由同一个管理员管理。

Grid    : 一组簇,中文可称之为网格。网格的用处是在一个大范围内把各异构的簇通过宽带汇聚在一起。在文献3中,还有一个概念是Planetary-scale systems,也就是全球性的网络,一般部署于主干网的根节点。并且假定,网内的带宽不充裕,而且昂贵,经常有拥塞的情况出现。这是加州伯克利的一个 GRID网络:http://monitor.millennium.berkeley.edu 你可以通过选择Grid或者Cluster来查看各类数据。

Ganglia的各种组成功能

gmond(Ganglia Monitor Daemon)  :数据采集器的服务程序,配置文件是/etc/gmond.conf 位于每个Node上

gmetad(Ganglia Metadata Daemon):数据混合收集器的服务程序,配置文件是/etc/gmetad.conf。它通过轮询收集gmond的数据,并聚合簇的各类信息,然后保 存在本地rrdtool的数据库中,最好每个cluster都有一个gmetad,以便能构建多级网络.

Web可视化工具:这是用PHP脚本实现的将数据可视化,并画出表格。可以是任何支持PHP、SSL和XML的web服务器。一般都用Apache2web服务器

额外的高级工具

gmetric可以用来添加你需要监控的Node额外状态;gstat可以直接获得Ganglia的数据,每台需要这些功能的Node上

ganglia功能示意图

从图中可以看到,簇内通过UDP协议组播压缩的XML(XDR)数据,每个节点共享簇内所有节点的信息,当gmetad轮询簇内某个节点不成功时,也可以轮询其他节点。gmetad通过TCP协议发送簇内数据给上层gmetad节点。

gmond程序由多个线程组成:

collect and publish thread线程用于采集节点的metrics并组播出去;

listening thread线程用于监听组播端口,并把这些metrics保存于内存中的一个多级hash表;一组XML export threads线程组用于相应TCP请求,把簇内的metrics发送出去。

gmond 不会保存数据,仅仅是监听保存并相应发送数据。节点间通过 heartbeat信号检测对方节点存活与否,如果一段时间内该节点没有广播metrics,我们视其宕机,而且每次启动时,会广播一个gmond启动时 间,这时邻居节点收到以后就视其机器重启,会删除该节点已存的所有metrics。

gmetad周期性的向data source发送轮询包,并为每个源分配一个线程。采集的metrics,经由SAX XML进行解析,内置一个gperf的hash表,便于数据的处理,最后将处理好的数据存于RRDTools中。

metrics的组成

Metrics 数据由gmond内置的程序或gmetric程序获得,一般以XDR(外部数据表示法(External Data Representation,缩写为XDR))形式压缩保存,保存格式为:(key,value),key为4 字节,value为4-8字节。metrics的采集次数、频率和发送时间间隔均在Gmond.conf中定义,gmond维持一个采集表,每个 metric都有其属性。

一个多簇异构Ganglia网络的数据流

图中有四种簇:

黄色Cluster - 既有本地的Node,也提供前端显示的接口。它提供web服务器查看Ganglia的数据,其中不仅包含本地的Node(可选),也包括蓝色和绿色簇中的数据。

淡绿色Cluster - 前端web服务显示,一般没有本地节点。

蓝色Cluster - 这个簇中没有本地的数据收集器。所以这些节点将会共享所有数据(由于gmond是用多播来发送数据,所以实现共享比较容易),然后其中一个节点将数据发送给上层的数据收集器。黄色簇的gmetad服务收集并储存,如果没有保存,这些数据将会丢失。

深绿色Cluster - 这个簇中拥有本地数据收集器和仓库。绿色节点中也是共享数据,但是由一个簇头节点收集数据,并储存,在被询问时通过TCP发送给上层的黄色簇。

一般性的组网建议:

1、网络由许多深绿色节点和有本地节点的黄色簇组成

2、网络由许多蓝色节点和没有本地节点的黄色簇组成

各类簇的配置绿色簇的配置

针对gmond.conf 获得gmond默认配置

gmond -t >/etc/gmond.conf

gmond.conf修改如下:

/* This configuration is as close to 2.5.x default behavior. as possible

The values closely match ./gmond/metric.h definitions in 2.5.x */

globals {

daemonize = yes

setuid = yes

user = nobody

debug_level = 0

max_udp_msg_len = 1472

mute = no

deaf = no

host_dmax = 0 /*secs */

cleanup_threshold = 300 /*secs */

gexec = no

}

/* If a cluster attribute is specified, then all gmond hosts are wrapped inside

* of a <CLUSTER> tag. If you do not specify a cluster tag, then all <HOSTS> will

* NOT be wrapped inside of a <CLUSTER> tag. */

cluster {

name = "green"

owner = "unspecified"

latlong = "unspecified"

url = "unspecified"

}

/* The host section describes attributes of the host, like the location */

host {

location = "unspecified"

}

/* Feel free to specify as many udp_send_channels as you like. Gmond

used to only support having a single channel. */

udp_send_channel {

mcast_join = green_header

port = 8649

}

/* You can specify as many udp_recv_channels as you like as well. */

udp_recv_channel {

port = 8649

family = inet4

}

...

对于mcast_join这个参数,green_header是簇头节点的主机名,你可以指定ip。

然后重启gmond服务。

簇头节点中/etc/gmetad.conf需要添加下面一行:

data_source "green" localhost

蓝色簇的配置

蓝色簇的配置与绿色簇类似,你只需要把簇的名字和簇头的名字设定好,然后重启所有节点的gmond服务。

黄色簇的配置

大部分配置与绿色簇类似,在/etc/gmetad.conf中需要加入以下几行:

data_source "yellow" localhost

data_source "blue" blue_header

data_source "green" green_header

这样gmetad就会:

1、联系本地gmond,获取所有黄色节点的状态数据。

2、联系blue_header节点的gmond,获取所有蓝色节点的状态数据。这些数据将会保存在本地的rrdtool数据库中。

3、联系green_header节点,获取在gmetad收集的rrdtools的整合数据。注意这些数据并不会保存在黄色簇中的rrdtools中,所以如果前端web服务器刷新时,会重新向green_header请求更新的的数据。

此外,在/etc/gmetad.conf ,也可以加入Grid的名称: gridname "Rainbow"

现在Ganglia的网页会显示一个叫Rainbow的网络,其中有三个簇:yellow,green和blue。

一些高级话题gmetric的使用

你可以添加固件:

gmetric --name firmware --value `lsattr -El sys0 -a modelname -F value` --type "string"

添加磁盘的数目:

gmetric --name number_of_disks --value `lspv | wc -l` --type int32

添加对某项数据的监控(其中name是现实的名字,value是由myget程序获取的,获取的数字类型是由type决定):

gmetric --name tpm --value `/usr/local/bin/myget` --type double

上面统计都只是一次,如果你需要长久的显示,最好是把上面的语句每60秒执行一次。然后,过几分钟以后,这些数据就会在网页上显示出来了。

对于gmetric的更多了解,你可以看http://ganglia.wiki.sourceforge.net/ganglia_readme 。

这里有一些自定义的gmetric脚本可以参考:http://ganglia.sourceforge.net/gmetric/

使用gstat获取数据,gstat可以通过命令直接显示数据,如:

[[email protected] ~]# gstat

CLUSTER INFORMATION

Name: my_hadoop

Hosts: 3

Gexec Hosts: 0

Dead Hosts: 0

Localtime: Tue Feb 14 20:40:05 2012

There are no hosts running gexec at this time

[[email protected] ~]#

你也可以通过加参数获取更多的信息:

[[email protected] ~]# gstat --all --single_line

CLUSTER INFORMATION

Name: my_hadoop

Hosts: 3

Gexec Hosts: 0

Dead Hosts: 0

Localtime: Tue Feb 14 20:39:43 2012

CLUSTER HOSTS

Hostname                     LOAD                       CPU              Gexec

CPUs (Procs/Total) [     1,     5, 15min] [  User,  Nice, System, Idle, Wio]

rac2     1 (    0/  481) [  0.04,  0.14,  0.11] [   2.3,   0.0,   0.4,  97.3,   0.1] OFF

rac3     1 (    0/  406) [  0.07,  0.04,  0.01] [   0.2,   0.0,   0.4,  99.4,   0.0] OFF

rac1     1 (    0/  777) [  0.09,  0.43,  0.42] [   2.7,   0.0,   0.9,  96.3,   0.0] OFF

时间: 2024-10-27 01:08:09

【工具】ganglia 监控技术分析的相关文章

Java虚拟机详解(八)------虚拟机监控和分析工具(2)——可视化

上篇博客我们介绍了虚拟机监控和分析命令行工具,由于其不够直观,不是很容易排查问题,那么本篇博客我们就来介绍几个可视化工具. 1.JConsole JConsole(Java Monitoring and Management Console)是一款基于 JMX 的可视化监视和管理的工具.它管理部分的功能是针对 JMX MBean 进行管理,MBean 可以使用代码.中间件服务器的管理控制台或者所有符合 JMX 规范的软件进行访问. JMX(Java Management Extensions)是

ganglia监控自定义metric实践

Ganglia监控系统是UC Berkeley开源的一个项目,设计初衷就是要做好分布式集群的监控,监控层面包括资源层面和业务层面,资源层面包括cpu.memory.disk.IO.网络负载等,至于业务层面由于用户可以很方便的增加自定义的metric,因此可以用于做诸如服务性能.负载.出错率等的监控,例如某web服务的QPS.Http status错误率.此外,如果和Nagios集成起来还可以在某指标超过一定阈值时触发相应的报警. Ganglia相比zabbix的优势在于客户端收集agent(gm

负载均衡技术分析与测试报告

负载均衡技术分析与测试报告                 目录 负载均衡测试报告... 1 负载均衡技术概述:... 2 服务器负载均衡... 2 链路负载均衡... 3 Outbound链路负载均衡... 3 Inbound链路负载均衡... 4 常见负载均衡调度算法... 5 测试目的... 6 测试环境搭建... 7 1:原始网络环境... 7 2:测试网络环境... 7 测试设备介绍... 8 1:产品介绍... 8 2:产品操作界面... 8 出现问题... 9 最终解决方案...

IDC 监控技术介绍

IDC 监控技术介绍 监控目的 提前发现问题 - 进行服务器性能调整前,知道调整什么 - 找出系统的瓶颈在什么地方 报告系统运行状况 - 每一部分必须同时监控 - 内容包括吞吐量,反应时间,使用率等 监控的资源类别 公开数据 - Web,FTP,SSH,数据库等应用服务 - TCP或UDP 端口 私有数据 - CPU,内存,磁盘,网卡流量等使用信息 - 用户,进程等运行信息 监控方式:(手动监控,自动监控系统) 手动监控:     进程监控 查看进程树     pstree (Processes

MongoDB运行状态、性能监控,分析

转自http://tech.lezi.com/archives/290 MongoDB运行状态.性能监控,分析 Posted by neilxp on 十月 26, 2011Leave a comment (2)Go to comments 这篇文章的目的是让你知道怎么了解你正在运行的Mongdb是否健康. mongostat详解 mongostat是mongdb自带的状态检测工具,在命令行下使用.它会间隔固定时间获取mongodb的当前运行状态,并输出.如果你发现数据库突然变慢或者有其他问题的

3DSMAX建模技术分析

在游戏美术中,模型的建立是很重要的,今天卡拉小编与大家分享的是3DSMAX建模技术分析1 旋转建模 用于具有中心对称的物体的造型比较简单,只需用工 具画出对称截面,加入(旋转)修改器就可以得到三维实体,有些还可以加入一些特殊变形,以增强表现的效果.2 Loft放样建模 这种建模的含义是将一个二维的交错物件转换为完整的三维物件的一个处理过程,也就是将一个二维的造型物件沿着第三轴向构建出复杂曲面的模型.也可以这样理解这个过程:将许多2D(shape)造型物件紧密且整齐地排列于一条路经(path)上,

蓝牙4.0技术分析1-广播者角色

第1章  BlueTooth Roles-Broadcaster 1.1    广播类型 广播可设置以下几种类型: 1)   Connectable Undirected Event Type(可连接无定向广播) 2)   Connectable Directed Event Type(可连接定向广播) 3)   Scannable Undirected Event Type(可扫描无定向广播) 4)   Non-connectable Undirected Event Type(不可连接无定向

Java三大主流开源工作流引擎技术分析

Java三大主流开源工作流引擎技术分析 首先,这个评论是我从网上,书中,搜索和整理出来的,也许有技术点上的错误点,也许理解没那么深入.但是我是秉着学习的态度加以评论,学习,希望对大家有用,进入正题! 三大主流工作流引擎:Shark,osworkflow,jbpm! Shark的靠山是Enhydra.Enhydra做过什么呢?多了!从j2ee应用服务器,到o/r mapping工具,到这个工作流引擎等等.为什么Shark的持久层采用DODS来实现?就是因为他们是一家人. Jbpm的靠山是jboss

转: HTTP Live Streaming直播(iOS直播)技术分析与实现

http://www.cnblogs.com/haibindev/archive/2013/01/30/2880764.html HTTP Live Streaming直播(iOS直播)技术分析与实现 不经意间发现,大半年没写博客了,自觉汗颜.实则2012后半年,家中的事一样接着一样发生,实在是没有时间.快过年了,总算忙里偷闲,把最近的一些技术成果,总结成了文章,与大家分享. 前些日子,也是项目需要,花了一些时间研究了HTTP Live Streaming(HLS)技术,并实现了一个HLS编码器