zabbix自动发现结合shell实现自动发现占用内存最大top10进程并监控其资源

最近在想一个问题,线上服务器跑的服务五花八门,可能这台跑的是nginx,另一台跑的是mysql,其他的跑的是nfs或者其他服务等等,通过某一个脚本中固定的写入一些服务来实现监控所有的服务器的进程占用资源情况占用zabbix服务器资源不说,假如该服务器跑的服务不在固定列表中,监控服务获取不到相应数据。

为了解决这个问题,最近在想通过zabbix的自动发现功能能不能实现自动发现占用服务器内存最大的N个进程,然后对这些进程占用内存和CPU的资源情况进行监控获取数据呢?于是就有了本篇文章的诞生。

首先,我们需要获取到top命令结果,可以使用下面的命令将top命令获取的结果重定向到一个文件中去:

top -b -n 1 >/tmp/top.txt

其中该命令的意思是执行一次top命令并将结果重定向到top.txt文件中去

将该命令添加到zabbix用户的计划任务中去,每分钟执行一次,命令如下:

crontab -e
*/1 * * * * top -b -n 1 >/tmp/top.txt

放进去之后在tmp目录下会生成一个top.txt文件

$ head -10 /tmp/top.txt 
top - 15:42:01 up 72 days, 22:25,  2 users,  load average: 0.09, 0.08, 0.06
Tasks: 880 total,   1 running, 879 sleeping,   0 stopped,   0 zombie
%Cpu(s):  2.8 us,  0.7 sy,  0.0 ni, 96.5 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 13175284+total, 97396048 free, 20357148 used, 13999640 buff/cache
KiB Swap: 32767996 total, 32452380 free,   315616 used. 11058964+avail Mem 
   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
 20732 zabbix    20   0  130716   2436   1204 R  11.8  0.0   0:00.03 top
126808 upload    20   0 8375636 945876  27268 S   5.9  0.7  63:33.97 java
127591 upload    20   0 9898.1m 1.078g  27960 S   5.9  0.9  63:58.01 java

好了,获取到了数据后,就需要对数据进行处理了,下面是两个脚本,一个是为了获取占用内存资源最高的进程名,另一个是获取某进程占用内存和cpu资源的信息。先来看第一个脚本:

$ cat scripts/check_process.sh 
#!/bin/bash
TABLESPACE=`tail -n +8 /tmp/top.txt|awk ‘{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}‘|sort -gr|head -10|cut -d" " -f2`
COUNT=`echo "$TABLESPACE" |wc -l`
INDEX=0
echo ‘{"data":[‘
echo "$TABLESPACE" | while read LINE; do
    echo -n ‘{"{#TABLENAME}":"‘$LINE‘"}‘
    INDEX=`expr $INDEX + 1`
    if [ $INDEX -lt $COUNT ]; then
        echo ‘,‘
    fi
done
echo ‘]}‘

其中最关键的是`tail -n +8 /tmp/top.txt|awk ‘{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}‘|sort -gr|head -10|cut -d" " -f2`这条命令:这条命令的意思是从top.txt文件中取出从第八行到末尾行的数据,然后使用awk对这些数据进行累加,效果是以最后一列为关键字,每个关键字对应的第6列的数值进行累加,输出第六列数据的累加结果和最后一列数据,然后使用sort进行排序,注意这里的参数是使用-gr而不是使用-nr是因为获取到的第六列的值是以KB为单位的,假如某进程占用内存大于10G的话,将会使用科学记数法计数,sort -nr参数无法对科学记数法进行计数,需要将参数改成-gr才行,其中的-r是进行反向排序,同时为了防止zabbix获取到该值是科学记数法获取的值从而无法识别,先将该值/1024将单位变成MB,当zabbix获取到数据后再*1024*1024将该值还原成BYTE单位。head -10是取出占用内存最大的十个进程,然后使用cut对数据进行切分,获得十个进程的进程名。至于下面的代码是将获取到的十个进程名进行json格式化的输出,输出结果如下:

$ sh ./scripts/check_process.sh 
{"data":[
{"{#TABLENAME}":"java"},
{"{#TABLENAME}":"docker"},
{"{#TABLENAME}":"nginx"},
{"{#TABLENAME}":"sshd"},
{"{#TABLENAME}":"tuned"},
{"{#TABLENAME}":"NetworkMa+"},
{"{#TABLENAME}":"zabbix_ag+"},
{"{#TABLENAME}":"systemd-j+"},
{"{#TABLENAME}":"crond"},
{"{#TABLENAME}":"rsyslogd"}]}

至于为啥要进行json格式化前面博客已经阐述过了,因为zabbix自动发现获取的值格式就是json格式化的值才能被识别到。

第二个脚本的作用就是获取某个进程占用的cpu和内存资源情况,脚本内容如下:

$ cat ./scripts/processmonitor.sh 
#!/bin/bash
process=$1
name=$2
case $2 in
mem)
echo "`tail -n +8 /tmp/top.txt|awk ‘{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}‘|grep "$process"|cut -d" " -f1`"
;;
cpu)
echo "`tail -n +8 /tmp/top.txt|awk ‘{a[$NF]+=$9}END{for(k in a)print a[k],k}‘|grep "$process"|cut -d" " -f1`"
;;
*)
echo "Error input:"
;;
esac
exit 0

该脚本的核心和上一个脚本的很相似,相信读者理解了上面的脚本在理解下面的脚本也是轻轻松松的啦。下面看该脚本执行的结果:

$ sh ./scripts/processmonitor.sh java mem
13115.5
$ sh ./scripts/processmonitor.sh java cpu
17.7

能获取到值了之后就需要在zabbix_agentd.conf里面配置相应的键值来获取数据了,下面是需要添加的配置:

$ tail -3 ./etc/zabbix_agentd.conf
#top_process
UserParameter=process.discovery,/home/zabbix/zabbix-2.4.4/scripts/check_process.sh
UserParameter=process.resource[*],/home/zabbix/zabbix-2.4.4/scripts/processmonitor.sh $1 $2

添加该配置之后需要重启zabbix_agentd才能使配置生效,重启需要使用pkill zabbix && zabbix-2.4.4/sbin/zabbix_agentd

好了,这样,客户端这边就已经配置成功了,下面需要在服务端验证是否能够获取到数据了,在服务端使用zabbix_get命令来获取数据,下面是执行的结果:

$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.discovery"
{"data":[
{"{#TABLENAME}":"java"},
{"{#TABLENAME}":"docker"},
{"{#TABLENAME}":"nginx"},
{"{#TABLENAME}":"sshd"},
{"{#TABLENAME}":"tuned"},
{"{#TABLENAME}":"NetworkMa+"},
{"{#TABLENAME}":"zabbix_ag+"},
{"{#TABLENAME}":"systemd-j+"},
{"{#TABLENAME}":"rsyslogd"},
{"{#TABLENAME}":"bash"}]}

上面的xxx.xxx.xxx.xxx代表的是客户端的IP地址,-k后面的参数就是刚刚我们在客户端上面添加的参数。

$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,mem]"
13115.6
$ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,cpu]"
0

好了,在服务端测试客户端没有问题,能够获取到数据了。接下来就需要在web端配置模板了。

在组态---》模板---》创建模板里面创建一个模板,叫做temple top_process如下图所示:

创建一个应用集叫做top of process resource,如下图所示:

创建好后,需要添加探索规则了,这是我们的重头戏。新建探索规则,如下图所示:

其中的键值就是我们在客户端上面配置的键值,数据更新间隔我这里设置为5分钟,就是说每间隔5分钟它就会去客户端获取占用内存最大的十个进程,然后取它们的内存和cpu占用资源数据。下面就需要配置项目原型了,如下图所示:

如上图所示,{#TABLENAME}获取的就是十个进程名的列表,process.resource[{#TABLENAME},mem]就是我们在客户端配置的键值,其中获取的内存数值单位是MB,这里将它转换成BYTE单位,所以将获取到的数值*1024*1024=1048576,单位改成Byte,将该项目应用到top of process resourceying应用集上。这样,一个项目原型就做成功了。下面是cpu占用资源的项目原型配置:

添加完项目原型后需要配置图形原型,如下图所示:

添加好图形原形后,改模版就制作成功了,接下来将该模板添加到主机上,就能够获取到数据了,这里因为我设置的自动发现时间间隔是5分钟,所以需要等待五分钟以上才会出现图形,下面是出现的图形效果。

这就是获取到的十个占用内存最大的进程的占用资源图形,下面是详细效果。

这是刚获取到的数据,至此,通过自动发现获取top10进程占用资源的监控结束,这只是本人匆忙之中写出的一个监控方式,拿出来给大家作参考,如果有更好的方式,可以和我共同探讨,大家共同进步,zabbix模板我将会放在附件中供大家下载。

时间: 2024-12-11 11:05:09

zabbix自动发现结合shell实现自动发现占用内存最大top10进程并监控其资源的相关文章

zabbix通过自定义脚本监控nginx,php-fpm和mysql占用内存数和进程的个数

首先,在zabbix脚本目录下添加一个脚本,写入如下代码 #!/bin/bash #license:GPL #mail:[email protected] #date:2015.04.16 top -bn1>/usr/local/zabbix-2.4.4/scripts/process.log LOG=/usr/local/zabbix-2.4.4/scripts/process.log php_fpm(){ grep "php-fpm" $LOG |awk '{sum+=$6}

zabbix agentd客户端插件Shell一键自动安装脚本

这次生产环境上线了多台Linux服务器,需要全部纳入Zabbix监控范畴,一台一台的去装Zabbix Agentd插件那就太苦逼了,所幸Zabbix客户端插件是支持绿色安装的,就写了个简单的一键安装脚本,然后配合 Secure CRT 的多窗口交互命令一次性就可以搞定了. 正常启动Zabbix客户端服务其实只需要2个文件: zabbix_agentd 和 zabbix_agentd.conf,需要特别说明的是:zabbix_agentd 最好是和 Zabbix_Server 一同编译所得,保证版

linux下监视进程 崩溃挂掉后自动重启的shell脚本

如何保证服务一直运行?如何保证即使服务挂掉了也能自动重启?在写服务程序时经常会碰到这样的问题.在Linux系统中,强大的shell就可以很灵活的处理这样的事务. 下面的shell通过一个while-do循环,用ps -ef|grep 检查loader进程是否正在运行,如果没有运行,则启动,这样就保证了崩溃挂掉的进程重新被及时启动. 必须注意两点: 1.ps |grep 一个进程时必须加上其路劲,否则容易grep到错误的结果: 2.必须用 -v 从结果中去除grep命令自身,否则结果非空. 复制代

linux下监视进程挂掉后自动重启的shell脚本

本文介绍的这个shell脚本,通过一个while-do循环,用ps -ef|grep 检查loader进程是否正在运行,如果没有运行,则启动,确保崩溃挂掉的进程,及时自动重启. 脚本内容如下: #!/bin/sh while : do echo "Current DIR is " $PWD stillRunning=$(ps -ef |grep "$PWD/loader" |grep -v "grep") if [ "$stillRun

Shell脚本-----自动备份Mysql数据库

脚本的整体思路 1.定义需要的变量 2.利用for循环备份需要备份的库,并以库名-当天日期.sql命名,并记录相关日志 3.建立备份当天的日期的目录,向备份的Sql文件移动到该目录 4.压缩打包该目录,以节省空间,打包成功后删除该目录 5.备份目录只备份七天的数据库,第八天删除第一天的备份,目录只会存在连续七天的备份文件 6.查找备份目录下的.log日志文件,超过七天的删除 #!/bin/bash mysql_bin=/usr/local/tdoa/mysql/bin/mysqldump use

把ps -ef & kill指令写成可以自动执行的shell脚本

之前重启服务器上的服务,均是先使用ps -ef | grep xxx指令查询出PID,然后再使用kill -9 PID指令杀死进程.由于重启的服务只止一个,每次都要重复输入,甚是麻烦. 示例 今天研究了一下,把以上手动查杀.重启服务的过程写成了shell脚本,重启服务只需执行脚本就可以了.附脚本样例: 1 #!/bin/sh 2 3 # restart das-web 4 ps -ef | grep /home/***/das-web/ | awk '{print $2}' | xargs -n

小白日记7:kali渗透测试之主动信息收集-发现(一)--二层发现:arping/shell脚本,Netdiscover,scapy

主动信息收集 被动信息收集可能不准确,可以用主动信息收集验证 特点:直接与目标系统交互通信,无法避免留下访问痕迹 解决方法:1.使用受控的第三方电脑进行探测,使用代理 (做好被封杀的准备) 2.伪造大量的来源IP进行探测,进行噪声迷惑,淹没真是的探测流量 扫描流程:发送不同的探测,根据返回结果判断目标状态[IP层->端口层->服务层] 发现 识别活着的主机,发现潜在的被攻击目标,输出结果为IP地址列表. 二层发现 数据电路层,使用ARP协议 使用场景:已经取得一台主机,进入内网,对内网进行渗透

[Erl_Question18]教练!又发现Erlang Shell里面的神奇函数一只

人嘛,总是想提高效率,创造更多的价值,同时也得到更多的选择空间.可一个人的精力,时间终归是有限的,减少自身重复或无意义工作就显得格外重要! 要么懂得授权,要么把重复的工作交给机器来做: 现实: 美国人喜欢把不重要的开发外包给其它国家,自己做核心; 身边:上级们不都是把他们认为不值得亲自做的事派发给下级,自己留精力去琢磨更重要的事么? 但苦逼如我,根本木有授权,所以只好费劲心思想尽办法让机器来做. 所以我先从工作调试用得最多的就是shell里面下手,有必要重温下c.erl这个模块,看文档真是"磨刀

shell脚本自动加黑恶意攻击IP

shell脚本自动加黑恶意攻击IP 系统环境:Centos 6.5 X64 如果我们对所有用户开放了SSH 22端口,那么我们就可以在/var/log/secure文件里查看,这里面全是恶意攻击的IP ,那么我们又该如何拒绝这些IP在下次攻击时直接把他拉黑,封掉呢? 或者这个IP再试图登陆4次或7次我就把他拒绝了,把他这个IP永久的封掉呢?这个时候我们就可以用这下面这个脚本来实现. [[email protected] ssh]# vi /etc/ssh/blocksship #!/bin/ba