(原)ubuntu下cadvisor+influxdb+grafana+supervisord监控主机和docker的containers

ubuntu下cadvisor+influxdb+grafana+supervisord监控主机和docker的containers(运行在主机上)

适用于类ubuntu系统.amd64.

1. influxdb: (以后考虑把influxdb换成prometheus)

https://influxdb.com/docs/v0.8/introduction/installation.html#ubuntu-debian
(只能先选择deb安装的方式了。。没办法 代码编译方式是不行了 go发展尚未成熟稳定很多库变动太快太大导致很多包路径已经改了0.88版本down下来已经编译不过了 所以我先安装deb-然后拷出influxdb二进制文件-最后再清理卸载系统里的influxdb)
$ wget http://get.influxdb.org.s3.amazonaws.com/influxdb_0.8.9_amd64.deb
$ sudo dpkg -i influxdb_0.8.9_amd64.deb
把两个文件拷出来,其他的都删掉.两个文件是:
/usr/bin/influxdb
/opt/influxdb/shared/config.toml
$ cd ...where/CIGS
$ chown ${USER}:${USER} influxdb
$ chown ${USER}:${USER} config.toml
$ vi config.toml
几个路径改一下就可以了。

另外,一个不是很必要的操作——提高打开文件数的限制:
(之所以不是和必要,是因为官方说“Pretend like we made it past 1999 and computers can actually handle more than 256 open files”..才256个...)
https://influxdb.com/docs/v0.8/introduction/installation.html#file-limits

如果提升了打开文件数,修改好了config.toml,这样就可以执行了(注意配置文件里的路径必须存在且权限合适):
$ ulimit -n 40960 ## 仅对当前终端有效
$ ./influxdb -config=config.toml

我是写了个脚本用sudo运行:
#!/bin/bash
mkdir -p /data/influxdb/shared/data/raft
mkdir -p /data/influxdb/shared/data/db
mkdir -p /data/influxdb/shared/data/wal
ulimit -n 40960
./influxdb -config=config.toml

接下来清理卸载系统里的influxdb:
停掉所有influxdb进程,然后su里find / -name "*influx*"然后手动清删influxdb.

清理完文件,再清理influx的用户权限:
$ sudo userdel influxdb
$ sudo groupdel influxdb
检验:sudo cat /etc/group | grep influx发现已经没有influx了.
如果还有且在docker那行(这是一个坑):
(注:如果没有了就不要搞下面的命令了.)
$ sudo groupdel docker
$ sudo groupadd docker
$ sudo gpasswd -a ${USER} docker && sudo service docker restart
如果还有那就sudo vi /etc/group, 对于docker1.9.1,docker那一行是:docker:x:999:yourName
注:
检验彻底清理了influx和docker权限是否还混一块:
$ docker run --rm -it redis
$ ps aux | grep redis看看是否还有influxdb这个用户.

另:
据说influxdb依赖这些库,不过我并不需要,可能系统已经有了:
$ sudo apt-get install mercurial bzr protobuf-compiler flex bison valgrind g++ make autoconf libtool libz-dev libbz2-dev curl build-essential git wget

最后,关于influxdb,过程中看了一下查询语句,记录如下:
list series //列出当前db下全部的表
select * from /.*/ limit 10 //列出当前db的所有的表的前10条数据
select * from stats where container_name=‘redis‘ limit 10
select * from stats where container_name =~ /^[^\/]/ limit 10 // 不以/开头的(所有docker的container)

2. cadvisor:

https://github.com/google/cadvisor/releases/latest 直接下载二进制文件.
$ chmod +x cadvisor
$ mv cadvisor ...where/CIGS/
注:此时的cadvisor只能支持influxdbv0.8.

运行(必须sudo)并使之对接influxDB:
$ sudo ./cadvisor -storage_driver=influxdb -storage_driver_host=localhost:8086 -storage_driver_db=‘cadvisor‘
(各参数意义见:https://github.com/google/cadvisor/blob/master/docs/influxdb.md )

注:influxdb跑起来后,首次运行要创建一个db进去(cadvisor配置成往这个db里写数据):
$ curl "http://localhost:8086/db?u=root&p=root" -d "{\"name\": \"cadvisor\"}"

3. grafana:

http://grafana.org/download/ 下载tar包.
$ tar zxvf grafana-2.5.0.linux-x64.tar.gz
$ mv grafana-2.5.0 ...where/CIGS/
写个脚本放到CIGS目录里:
#!/bin/bash
HOMEPATH=grafana-2.5.0
mkdir -p /data/grafana/log
mkdir -p /data/grafana/dashboards
$HOMEPATH/bin/grafana-server -homepath=$HOMEPATH -config=grafana.ini

sudo执行即可. 然后打开前段进行配置:
http://localhost:3000
登陆进去(账户见配置文件): Data Sources/Add new:
Name:cadvisor Default:√
Type:influxDB 0.8.x
Url:http://localhost:8086 Access:proxy
Basic Auth: Enable (不勾选,貌似没用)
Database:cadvisor
User:root Password:root
然后配个Dashboards:
Dashboards/Home↓/+New
。。。。

住:配置文件grafana.ini如果修改了,可能不会被应用。这时需要sudo rm -rf /data/grafana/grafana.db

另,据说grafana依赖这些库,不过我并不需要,可能系统已经有了:
$ sudo apt-get install -y adduser libfontconfig

4. supervisord使三合一

4.1 安装supervisor
$ apt-cache show supervisor
看看是不是3.0版本的.
安装:
$ sudo apt-get install supervisor
看是否安装成功:
$ echo_supervisord_conf
$ ps aux | grep supervisor
$ vi /etc/supervisor/supervisord.conf
最后一行..

4.2 三合一:
$ vi cigs-supervisor.conf
(仅摘录部分)
[unix_http_server]
file=/tmp/vmd_supervisord.sock

[supervisord]
pidfile=/tmp/vmd_supervisord.pid
nodaemon=true

[supervisorctl]
serverurl=unix:///tmp/vmd_supervisord.sock
prompt=cigs

[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface

[program:cadvisor]
command=%(here)s/runCAdvisor
directory=%(here)s
autorestart=true
startsecs=4
startretries=99
stopasgroup=true
killasgroup=true
redirect_stderr=true
stdout_logfile=%(here)s/log/%(program_name)s_supervisor.log
stdout_logfile_maxbytes=500MB
stdout_logfile_backups=50
stdout_capture_maxbytes=1MB
stdout_events_enabled=false
environment = PYPY_GC_MAX="250MB", PYPY_GC_GROWTH=1.2, PYPY_GC_MAX_DELTA="192MB"
...
以上,cigs-supervisor.conf是启动cadvisor,influxdb和grafana的完整的suerpvisor配置文件.
这样:通过系统的supervisord来启动这样一个任务,任务的命令是这样的:supervisord -c cigs-supervisor.conf
所以,往/etc/supervisor/conf.d/xx.conf里写配置文件:
CIGS_SUPERVISOR_CONF=$(pwd)/cigs-supervisor.conf
FILE_WRITE=/etc/supervisor/conf.d/cigs.conf
echo "[program:cigs]" > $FILE_WRITE
echo "command = supervisord -c $CIGS_SUPERVISOR_CONF" >> $FILE_WRITE
echo "autostart=true" >> $FILE_WRITE
echo "autorestart=true" >> $FILE_WRITE
echo "startsecs=5" >> $FILE_WRITE

重启supervisord即可:
(本机发现sudo service supervisor stop等没作用.所以重启方法如下)
$ sudo supervisorctl
$ shutdown
$ sudo service supervisor start

5. 最后,扔个python程序到服务器,定时检测内存超过90%则报警.
我采用slack报警,用到的py库:
https://pypi.python.org/pypi/psutil
https://pypi.python.org/pypi/pyslack-real
同样的,这个py程序,也放到supervisord里.
(这个报警程序,直接改cadvisor的代码用go实现也是一个很不错的选择.)

时间: 2024-12-18 17:51:05

(原)ubuntu下cadvisor+influxdb+grafana+supervisord监控主机和docker的containers的相关文章

docker swarm cAdvisor+InfluxDB+Grafana 监控

docker swarm集群的监控方案很多,cAdvisor+InfluxDB+Grafana方案功能强大灵活.最重要的是这个方案开源.免费.易用,是不花钱版监控方案.参考文档:https://botleg.com/stories/monitoring-docker-swarm-with-cadvisor-influxdb-and-grafana/ 组件说明 cAdvisor:数据收集模块,需要部署在集群中的每一个节点上,当然前提条件是节点接受task.在本次实验中,共有三个节点,因为其中一个节

docker:十分钟构建容器监控系统cAdvisor+InfluxDB+Grafana

1.概念 cAdvisor:用于数据采集InfluxDB:用于数据存储Grafana:用于数据展示 1.1 cAdvisor 它是Google用来监测单节点的资源信息的监控工具.Cadvisor提供了一目了然的单节点多容器的资源监控功能.Google的Kubernetes中也缺省地将其作为单节点的资源监控工具,各个节点缺省会被安装上Cadvisor.总结起来主要两点: 展示 Host 和容器两个层次的监控数据. 展示历史变化数据. ?由于 cAdvisor 提供的操作界面略显简陋,而且需要在不同

在Marathon 上部署 cAdvisor + InfluxDB + Grafana Docker监控

关于 Docker 容器的监控,google cAdvisor 是个很好的工具,但是它默认只显示实时数据,不储存历史数据.为了存储和显示历史数据.自定义展示图,可以把将cAdvisor与InfluxDB.Grafana 集成起来. 需要的镜像: tutum/influxdb google/cadvisor grafana/grafana 安装:有8台mesos-slave,都需要运行一个cAdvisor docker实例对docker进行监控,然后需要运行一个InfluxDB docker实例存

[经验交流] 在 Mesos Marathon 上部署 cAdvisor + InfluxDB + Grafana Docker监控

关于 Docker 容器的监控,google cAdvisor 是个很好的工具,但是它默认只显示实时数据,不储存历史数据.为了存储和显示历史数据.自定义展示图,可以把将cAdvisor与InfluxDB.Grafana 集成起来,国外的专家 Brian Christner 写了一篇文章”How to setup Docker Monitoring“,描述了部署方法. Brian 的方法是手动运行 docker run 命令进行部署,为了能在 Mesos Marathon 平台上自动部署,我对他的

ubuntu下安装配置部署zabbix3.0——基于docker

一.系统配置 Ubuntu 16.04 LTS dockers  1.11.2 Mariadb 二.安装docker(apt方式+curl方式) 1.apt方式安装 1.1.安装https证书: $ sudo apt-get update $ sudo apt-get install apt-transport-https ca-certificates 1.2.安装docker 官方apt源公钥: $ sudo apt-key adv --keyserver hkp://p80.pool.sk

cadvisor+influxdb 增加estab统计

1.需求说明: 采用cadvisor+influxdb+grafana进行容器监控并数据展示,同时收集tcpstats相关数据. 启动时关闭默认的-disable-metric,启动参数如下: [program:cadvisor] command=/root/go/src/cadvisor/cadvisor -port=18080 -logtostderr=true -v=5 -enable_load_reader=true -storage_duration=15s -disable_metr

Ubuntu下搭建JAVA运行环境

(一)Linux操作系统安装(详细信息参见:http://my.oschina.net/u/1458864/blog/366665)1.安装Oracle VM VirtualBox2.安装vagrant3.下载box4.vagrant添加box到虚拟机中(http://my.oschina.net/u/1458864/blog/366665)    初始化vagrant:vagrant init(详细信息参见vagrant的配置说明)    向vagrant中添加box:vagrant box

K8S集群监控—cAdvisor+Heapster+InfluxDB+Grafana

容器的监控方案有多种,如单台docker主机的监控,可以使用docker stats或者cAdvisor web页面进行监控.但针对于Kubernetes这种容器编排工具而言docker单主机的监控已经不足以满足需求,在Kubernetes的生态圈中也诞生了一个个监控方案,如常用的dashboard,部署cAdvisor+Heapster+InfluxDB+Grafana监控方案,部署Prometheus和Grafana监控方案等.在这里主要讲述一下cAdvisor+Heapster监控方案.

【Docker】性能测试监控平台搭建:InfluxDB+Grafana+Jmeter+cAdvisor

https://www.cnblogs.com/Detector/p/10104254.html 前言 在做性能测试时,如果有一个性能测试结果实时展示的页面,可以极大的提高我们对系统性能表现的掌握程度,进而提高我们的测试效率.但是我们每次打开Jmeter都会有几个硕大的字提示别用GUI模式进行负载测试,而且它自带的监视器效果实在一般:在Windows下渲染效果不好,在linux环境(非GUI环境)下更是无法使用,这一点我在如何选择性能测试工具中有过简单的描述. 所以,在做性能测试时,为Jmete