每天进步一点点——Ganglia的Python扩展模块开发

转载请说明出处:http://blog.csdn.net/cywosp/article/details/39701245

注:本文涉及到的代码都在centos 6.5 64bit系统上通过验证,Ganglia版本为3.1,通过yum安装具体步骤请参考:

http://blog.csdn.net/cywosp/article/details/39701141

1. 概述

Ganglia 项目是由加州大学发起的,现在已经成为一个应用非常广泛集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。同时具有很好的扩展性,允许用户加入自己所要监控的状态信息。根据可视化的相关数据,很容易知道集群的健康状态,并且也可以分析出集群的可优化的地方。

    所有这些数据收集会多次影响节点性能。网络中的“ 抖动( Jitter ) ” 发生在大量小消息同时出现,通过ntp服务将节点的时钟保持一致,就可以避免这个问题。

Ganglia的工作原理如下图

更多关于Ganglia工作原理请参考http://flyerlee.diandian.com/post/2013-06-03/40051002657,本文重点是讲述如何使用Ganglia提供的Python接口开发自己想要的metric。

2. Ganglia的Metrics

何为metric,在字典中其翻译为标准,度量之意。在ganglia的Web界面中我们看得最多的是如下这些图:

这些图还不能算是真正的metric,其只是各个种类的metric的汇总后通过rrdtool画出来的图,便于总体观察。下面这些才是本文要讲述的metric(CPU的metrics):

每一个小图表代表着cpu相关信息的一个数据类型,这些数据都是通过对应的部署在各个集群节点的程序模块搜集,而这个搜集模块的开发就是本文要重点讲解的。

3. 自定义metrics开发

向ganglia加入自定义metric有两种方法,一种是通过命令行的方式运行gmetric,另一种是通过ganglia提供的面向c和python的扩展模块,加入自定义的模块支持。下面使用Python开发一个简单的metric实例:

在/usr/lib64/ganglia/python_modules/中创建random_number.py并添加如下代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import random
import time
descriptors = list()
def random_number_1(name):
    return int(random.uniform(5, 100)) + 10
def random_number_2(name):
    return int(random.randrange(50, 500))
def metric_init(params):
    global descriptors
    random.seed()
    print params
    d1 = {
        'name': 'random_number_1',
        'call_back': random_number_1,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'C',
        'slope': 'both',
        'format': '%u',
        'description': 'Random a number',
        'groups': 'example random'
    }
    d2 = {
        'name': 'random_number_2',
        'call_back': random_number_2,
        'time_max': 90,
        'value_type': 'uint',
        'units': 'C',
        'slope': 'both',
        'format': '%u',
        'description': 'Random a number',
        'groups': 'example random'
    }
    descriptors = [d1, d2]
    return descriptors
def metric_cleanup():
    pass

#This code is for debugging and unit testing
if __name__ == '__main__':
    metric_init({})
    while True:
        for d in descriptors:
            v = d['call_back'](d['name'])
            print ('value for %s is '+d['format']) % (d['name'], v)
        time.sleep(5)

在上面的代码中Ganglia运行的时候会调用metric_init和metric_cleanup两个函数,从这两个函数的名字我们就能得知前一个是做初始化工作,后面一个是做结束资源清理工作的。在Ganglia加载相关模块来运行时,只会调用这两个函数。这里的main函数入口只是为了做调试而写在这里的。

在/etc/ganglia/conf.d/中创建random_number.conf文件,并添加如下代码

modules {

module {

#这里的name值一定要与/usr/lib64/ganglia/python_modules/random_number.py的文件名保持一致,否则将无法正确运行

name = "random_number"

language = "python"

}

}

collection_group {

collect_every = 2

time_threshold = 90

metric {

#这里的name值要与random_number.py中的d1里的name保持一致

name = "random_number_1"

title = "random number 1"

value_threshold = 0

}

metric {

#这里的name值要与random_number.py中的d2里的name保持一致

name = "random_number_2"

title = "random number 2"

value_threshold = 0

}

}

配置好文件后重启服务

service gmond restart

service gmetad restart

service httpd restart

4. 效果

在浏览器中输入127.0.0.1/ganglia即可看到监控效果,如果不出问题,则在Metric下拉框中会有如下两个选项:

选择其中一项则在当前页面的最下端显示如下信息:

5. 总结

本文只是讲述了最为简单的Ganglia metric开发,如果想深入了解可以参考Ganglia的官方文档,或者去https://github.com/ganglia上直接查看源码,其中gmond_python_modules项目里提供了大量常见项目的metrics示例。

Ganglia为集群提供了高可视化的监控,不仅能让运维人员快速的清楚集群当前的状态,而且还能让开发人员清楚系统的相关运行状态,从而针对性的做出更好的优化。

时间: 2024-10-15 01:53:42

每天进步一点点——Ganglia的Python扩展模块开发的相关文章

Python3快速入门(十七)——Python扩展模块开发

Python3快速入门(十七)--Python扩展模块开发 一.Python扩展模块 1.Python扩展模块简介 Python与C/C++交互的方案有多种,如Python C API,SWIG,SIP,ctypes,cpython,cffi,boost.python等.Python只是一个语言规范,有很多具体实现,CPython是标准Python,由C编写,Python脚本被编译成CPython字节码,然后由虚拟机解释执行,垃圾回收使用引用计数,Python与C/C++混合编程本质是基于CPy

Python 学习开发的两年后的反思

背景介绍 pyqt 客户端方案 C 和python 混合编程方案 纯python服务器解决方案 由于对服务器开发熟悉程度不高暂时未想到应用程序服务器的开发应用求指点 网络快速测试方案 学术研究 技术规划 反思 问题 背景介绍 三年的C++ windows 客户端的开发经验, 接触python也快有两年了. 记得最开始会选择接触python的原因是因为李开复老师的强烈推荐. 接触以后一直对python简洁的编程风格所倾倒.自己的C++ 编程风格和设计思路上受到python 的影响很大,因为这个原因

Python 3开发网络爬虫(四): 登录

原文出处: Jecvay Notes (@Jecvay) <零基础自学用Python 3开发网络爬虫(一)> <零基础自学用Python 3开发网络爬虫(二)> <零基础自学用Python 3开发网络爬虫(三)> 今天的工作很有意思, 我们用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个很难解释, 但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告. 知乎网的

用virtualenv建立多个Python独立开发环境

不同的人喜欢用不同的方式建立各自的开发环境,但在几乎所有的编程社区,总有一个(或一个以上)开发环境让人更容易接受. 使用不同的开发环境虽然没有什么错误,但有些环境设置更容易进行便利的测试,并做一些重复/模板化的任务,使得在每天的日常工作简单并易于维护. 什么是virtualenv? 在Python的开发环境的最常用的方法是使用 virtualenv 包. Virtualenv是一个用来创建独立的Python环境的包.现在,出现了这样的问题:为什么我们需要一个独立的Python环境? 要回答这个问

Python CMDB开发

Python CMDB开发 运维自动化路线: cmdb的开发需要包含三部分功能: 采集硬件数据 API 页面管理 执行流程:服务器的客户端采集硬件数据,然后将硬件信息发送到API,API负责将获取到的数据保存到数据库中,后台管理程序负责对服务器信息的配置和展示. 采集硬件信息 采集硬件信息可以有两种方式实现: 利用puppet中的report功能 自己写agent,定时执行 两种方式的优缺点各异:方式一,优点是不需要在每台服务器上步一个agent,缺点是依赖于puppet,并且使用ruby开发:

研究python服务器开发

研究python服务器开发http://www.example-code.com/python/ssh_exec.asp telnet 118.193.152.71 51234 import socket, threading HOST = '127.0.0.1' PORT = 51234 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.bind((HOST, PORT)) s.listen(4) clients = [] #lis

Python服务器开发一:python基础

Python服务器开发一:python基础 Python(蟒蛇)是一种动态解释型的编程语言.Python可以在Windows.UNIX.MAC等多种操作系统上使用,也可以在Java..NET开发平台上使用. [特点] 1 Python使用C语言开发,但是Python不再有C语言中的指针等复杂的数据类型. 2 Python具有很强的面向对象特性,而且简化了面向对象的实现.它消除了保护类型.抽象类.接口等面向对象的元素. 3 Python代码块使用空格或制表符缩进的方式分隔代码. 4 Python仅

转-在Mac OS上搭建Python的开发环境

在Mac OS上搭建Python的开发环境 本文转载自:http://www.jb51.net/article/76931.htm 一. 安装python mac系统其实自带了一个python的执行执行环境,用来运行python还行,但是开发可能就不够了,因此我们需要重新安装python.这里有两种方案安装: 1.homebrew 1 brew install python 这个方案比较简单,如果出错的话可以给前面加sudo试试,这个安装的python可能不是最新版. 2.从官网下载安装大家可以

Redis的Python实践,以及四中常用应用场景详解——学习董伟明老师的《Python Web开发实践》

首先,简单介绍:Redis是一个基于内存的键值对存储系统,常用作数据库.缓存和消息代理. 支持:字符串,字典,列表,集合,有序集合,位图(bitmaps),地理位置,HyperLogLog等多种数据结构. 支持事务.分片.主从复之.支持RDB(内存数据保存的文件)和AOF(类似于MySQL的binlog)两种持久化方式.3.0加入订阅分发.Lua脚本.集群等特性. 命令参考:http://doc.redisfans.com 中文官网:http://www.redis.net.cn 安装(都大同小