监控服务器Nagios之三 监控案例

前边的两篇仅是Nagios服务端的安装与配置文件的解读,现在终于来到了第三篇,本篇将介绍下Nagios是如下实现监控的。

安装完Nagios之后,登录Web界面访问,在hosts一项中仅有localhost(hosts代表所监控的主机),如下图:

在Service中默认已经监控Nagios服务器本身的以下选项,如下图所示

上图中http处于WARNING状态,提示HTTP WARNING:HTTP/1.1 403 Forbidden - 5237 bytes in 0.003 second response time

这个是因为才Apache默认发布目录/var/www/html下没有index.html,创建一个即可。

一、监控Nagios服务器本身

默认HTTP与SSH虽然被监控,但是是没有报警通知的,我们首先开启HTTP和SSH的通知!

#vim/usr/local/nagios/etc/objects/localhost.cfg

找到HTTP与SSH的define,把notifications_enabled   0这行注释掉或者0改为1,然后重启Nagios服务即可

下面我们再添加一些其它监控项

添加监控本地服务器磁盘项,以/dev/sda2为例。

[email protected]_Server ~]# df -h /dev/sda2
Filesystem      Size Used Avail Use% Mounted on
/dev/sda2        30G 4.3G   25G  15% /
现在有85%的空闲空间。
[[email protected]_Server ~]# cd/usr/local/nagios/etc/objects/
[[email protected]_Server objects]# vimcommands.cfg
添加以下内容
define command{
       command_name    check_disk
       command_line   $USER1$/check_disk  -w $ARG1$ -c$ARG2$ $ARG3$       #这里的变量$USER1$在resource.cfg文件中进行定义,即$USER1$=/usr/local/nagios/libexec;
       }                                                                  #-w 第一个参数 -c 第二个参数 然后第三个参数
[[email protected]_Server objects]# vimlocalhost.cfg
添加以下内容
define service{
       use                            local-service        
       host_name                      localhost
       service_description                     Disk_monitor
       check_command                 check_disk!30%!20%!/dev/sda2         #每个参数用”!”隔开
       notifications_enabled                   1       #是否监控该服务    #对于/dev/sda2当可用率小于30%的时候就Warning(警告),小于20%的时候就Critical(严重)
       }                                                                  #命令等同于/usr/local/nagios/libexec/check_disk-w 30% -c 20% /dev/sda2
[[email protected]_Server objects]#/usr/local/nagios/libexec/check_disk -w 30% -c 20% /dev/sda2
DISK OK - free space: / 24639 MB (85%inode=92%);| /=4323MB;6102;7628;0;30512
[[email protected]_Server ~]# /usr/local/nagios/bin/nagios-v /usr/local/nagios/etc/nagios.cfg
检查配置文件,确保没有警告与错误,然后重启Nagios和httpd

[[email protected]_Server ~]# service nagiosrestart
[[email protected]_Server ~]# service httpdrestart

二、监控Linux客户端

1linux客户端配置环境

#rpm -q gcc glibc glibc-common gd gd-develxinetd openssl-devel

根据实际环境,安装所缺少的包

2、首先创建nagios用户,并安装nagios-pluginsNRPE

[[email protected]_client ~]# useradd nagios
[[email protected]_client ~]# ls
nagios-plugins-1.4.14.tar.gz  nrpe-2.14.tar.gz
[[email protected]_client ~]# tar -zxfnagios-plugins-1.4.14.tar.gz
[[email protected]_client ~]# cdnagios-plugins-1.4.14
[[email protected]_client nagios-plugins-1.4.14]# ./configure--prefix=/usr/local/nagios && make  && make install
[[email protected]_client ~]# tar -zxfnrpe-2.14.tar.gz
[[email protected]_client ~]# cd nrpe-2.14
[[email protected]_client nrpe-2.14]#./configure--enable-ssl --with-ssl-lib && make all && make install-plugin && make install-daemon && make install-daemon-config
[[email protected]_client nrpe-2.14]#chown -R nagios:nagios/usr/local/nagios

启动nrpe客户端:

[[email protected]_client ~]#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[[email protected]_client ~]# netstat -anlp | grepnrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25392/nrpe         
unix 2      [ ]         DGRAM                    52454  25392/nrpe

3Nrpe客户端配置

[[email protected]_client ~]# vim/usr/local/nagios/etc/nrpe.cfg

下边是默认配置

其中“1”是已经配置好的命令,”2”是模板文件,可在服务端command.cfg调用!

根据需要修改,加入两行如下:

[[email protected]_client ~]# vim/usr/local/nagios/etc/nrpe.cfg
#添加允许监控的服务器端IP
把allowed_hosts=127.0.0.1改为allowed_hosts=127.0.0.1,192.168.1.2
重启NRPE客户端
[[email protected]_client etc]# netstat -anlp |grep nrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25392/nrpe         
unix 2      [ ]         DGRAM                    52454  25392/nrpe         
[[email protected]_client etc]# pkill nrpe
[[email protected]_client etc]# netstat -anlp |grep nrpe
[[email protected]_client etc]#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
[[email protected]_client etc]# netstat -anlp |grep nrpe
tcp       0      0 0.0.0.0:5666                0.0.0.0:*                   LISTEN      25472/nrpe         
unix 2      [ ]         DGRAM                    56410  25472/nrpe         
[[email protected]_client etc]#

4、Nrpe服务端配置

[[email protected]_Server objects]# pwd
/usr/local/nagios/etc/objects
[[email protected]_Server objects]# vimcommands.cfg
#在末端添加以下内容(调用NRPE)
define command{
    command_name check_nrpe
     command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
  }

5Nagios监控端客户机配置

[[email protected]_Server ~]# cd/usr/local/nagios/etc/
[[email protected]_Server etc]# ls
cgi.cfg htpasswd.users  nagios.cfg  objects resource.cfg
[[email protected]_Server etc]# vim nagios.cfg
#36行后添加以下内容
cfg_file=/usr/local/nagios/etc/objects/192.168.1.4.cfg
[[email protected]_Server objects]# pwd
/usr/local/nagios/etc/objects
[[email protected]_Server objects]#touch192.168.1.4.cfg
[[email protected]_Server objects]# chownnagios:nagios 192.168.1.4.cfg
[[email protected]_Server objects]#vim192.168.1.4.cfg
#添加以下内容
define host{
       use                    linux-server
       host_name              192.168.1.4
       alias                  192.168.1.4
       address                192.168.1.4
       }
define hostgroup{
       hostgroup_name  192.168.1.4
       alias           Linux Servers
       members         192.168.1.4
       }
define service{
       use                            local-service
       host_name                      192.168.1.4
       service_description            Monitor_sda1
        check_command                   check_sda1
       notifications_enabled           1
       }
 
define service{
       use                            local-service
       host_name                      192.168.1.4
       service_description            Monitor_sda2
       check_command                  check_sda2
       notifications_enabled           1
       }

6、验证是否添加成功

服务端测试是否可以与客户端nrpe通信(显示NRPE版本即代表成功)

[[email protected]_Server objects]#/usr/local/nagios/libexec/check_nrpe -H 192.168.1.4
NRPE v2.14

如报错

CHECK_NRPE: Error - Could not complete SSLhandshake.

kill掉nrpe 重启nrpe即可

[[email protected]_Server ~]#/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg #测试配置文件是否存在错误
[[email protected]_Server ~]# service nagiosrestart
Running configuration check...done.
Stopping nagios: done.
Starting nagios: done.
[[email protected]_Server ~]# service httpdrestart
停止 httpd:                                              [确定]
正在启动 httpd:                                          [确定]

7、Other

其实在Nagios服务端如果添加NRPE客户端的时候,可以复制localhost模板,因为里边已经定义过很多服务,只需要修改一些即可。

cp  localhost.cfg  192.168.1.4.cfg

把默认配置文件里面的locahost、127.0.0.1、check_local、linux-servers更新一下

[[email protected]_Server ~]#sed -i‘s#localhost#192.168.1.4#g;s#127.0.0.1#192.168.1.4#g;s#check_local#check#g;s#linux-servers#192.168.1.4#g‘  192.168.1.4.cfg

因为客户端是基于NRPE的,所以要把所监控的服务check_command 前加check_nrpe! 这里不再叙述!

三、监控Windows客户端

在Nagios的libexec下有check_nt这个插件,它就是用来检查windows机器的服务的。其功能类似于check_nrpe。不过还需要搭配另外一个软件NSClient++,它则类似于NRPE。

NSClient++的原理如下图

可以看到NSClient与nrpe最大的区别就是:

被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的。当监控主机将监控请求发给nrpe后,nrpe调用插件来完成监控。

NSClient++则不同,被监控机上只安装NSClient,没有任何的插件。当监控主机将监控请求发给NSClient++后,NSClient直接完成监控,所有的监控是由NSClient完成的。

这也说明了NSClient++的一个很大的问题:不灵活、没有可扩展性。它只能完成自己本身包含的监控操作,不能由一些插件来扩展。好在NSClient++已经做的不错了,基本上可以完全满足我们的监控需求。

1、            安装NSClient++

从http://www.nsclient.org/nscp/downloads 下载NSClient++-0.2.7.zip

解压到C盘根目录。

打开cmd 切换到c:\NSClient++-0.2.7

执行nsclient++ /install 进行安装

执行nsclient++ SysTray (注意大小写),这一步是安装系统托盘,时间稍微有点长。

在运行里面输入services.msc 打开“服务”,看到下图就说明NSClient服务已经安装上了

双击打开,点“登录”标签,在“允许服务与桌面交互”前打勾

2、编辑配置文件

编辑c:\NSClient++-0.2.7下的NSC.ini文件。

将 [modules]部分的所有模块前面的注释都去掉,除了CheckWMI.dll 和 RemoteConfiguration.dll 这两个。

在[Settings]部分设置‘password‘选项来设置密码,作用是在nagios连接过来时要求提供密码。这一步是可选的,我这里设置为‘hi‘。

将[Settings]部分‘allowed_hosts‘选项的注释去掉,并且加上运行nagios的监控主机的IP。各IP之间以逗号相隔。这个地方是支持子网的,如果写成192.168.1.0/24则表示该子网内的所有机器都可以访问。如果这个地方是空白则表示所有的主机都可以连接上来。

注意是[Settings]部分的,因为[NSClient]部分也有这个选项。

必须保证[NSClient]的‘port‘选项并没有被注释,并且它的值是‘12489‘,这是NSClient的默认监听端口。

在cmd 中执行nsclient++ /start启动服务,注意所在目录是c:\NSClient++-0.2.7

服务已经启动

在cmd 里面执行netstat –an 可以看到已经开始监听tcp的12489端口了。

防火墙也要打开tcp的12489端口,否则nagios 检查此服务的时候会报错。

3、            Nagios服务端配置

a、确保check_nt命令在/etc/nagios/objects/commands.cfg都被定义了。还有一点改变,应用默认配置不使用密码了,所以在命令行末尾,加-s hi,以便让check_nt命令使用默认的密码”hi”

[[email protected]_Server objects]# pwd
/usr/local/nagios/etc/objects
[[email protected]_Server objects]# vimcommands.cfg

b、Windows主机定义模板——不是真的主机,只是模板!

在/etc/nagios/objects/templates.cfg,你需要模板来定义Windows主机应该怎样配置

c、核实模板存在之后,需要通知Nagios还得监视Windows。通过取消注解cfg_file行,让Nagios看windows.cfg文件。

[[email protected]_Server etc]# pwd
/usr/local/nagios/etc
[[email protected]_Server etc]# vim nagios.cfg

d、定义Windows主机被监视。这一步在每个要被监视的windows主机都要做。你需要一个在windows.cfg文件中的定义主机项

[[email protected]_Server objects]# pwd
/usr/local/nagios/etc/objects
[[email protected]_Server objects]# vimwindows.cfg

4、  验证配置

提醒:一定要确保windows的防火墙是关闭的或者开发”12489”

出现了一个错误

NSClient - ERROR:PDH Collection thread not running.

Windows客户端配置

打开C:\NSClient++-0.2.7\counters.defs文件,复制文件里面"English US"那部分内容,粘贴到counters.defs 文件的最后,修改Description = "Chinese"。

增加以下内容(用notepad++打开会有更友好的试图),重启Nsclient服务即可

[0x0804]

Description ="Chinese"

NT4_SystemTotalProcessorTime= "\System\% Total Processor Time"

NT4_SystemSystemUpTime= "\System\System Up Time"

NT4_MemoryCommitLimit= "\Memory\Commit Limit"

NT4_MemoryCommitByte= "\Memory\Committed Bytes"

W2K_SystemTotalProcessorTime= "\Processor(_total)\% Processor Time"

W2K_SystemSystemUpTime= "\System\System Up Time"

W2K_MemoryCommitLimit= "\Memory\Commit Limit"

W2K_MemoryCommitByte= "\Memory\Committed Bytes"

但是最后还有个Warning,是关于W3SVC的,原因是Windows客户端没有安装IIS

开始---控制面板---程序---打开或关闭Windows功能,添加IIS,重启NSClient服务即可

如下图:

有两个服务是出于flapping状态

[[email protected]_Server ~]# vim /usr/local/nagios/etc/nagios.cfg

虽然文档里说默认是0,但实际为1.改为0之后就解决了flapping state

enable_flap_detection=0

重启Nagios服务即可。

Perfect ?

分组?邮件、短信报警?监控HTTP关键字?监控Mysql主从?

下篇见……..

时间: 2024-10-19 00:16:40

监控服务器Nagios之三 监控案例的相关文章

搭建基于Nagios的监控系统——之监控远程Windows服务器

分享了如何监控Linux服务器,我们来看看使用Nagios如何监控Windows服务器. 第一部分:配置被监控的Windows服务器   首先,访问 http://sourceforge.net/projects/nscplus/,下载符合自己服务器的 NSClinent++.我下载下来以后的文件名为:NSCP-0.4.1.73-Win32.msi 双击安装程序,选择 Complete Install,并且选择生成实例配置文件,其他的就一路下一步就OK了. 其次,在 NSClient++ 的安装

Nagios 里面监控MySQL事务一直RUNNING没有结束的报警通知

序言:        业务报警订单提交异常,页面一直没有反应,排查后是事务没有提交或者回滚导致,想到如果及时监控事务的运行状态报警出来,那么就可以及时排查出问题所在,方便运营处理,所以自己就弄了一个shell脚本放在nagios来处理事务报警情况.1,编写事务监控脚本 #!/bin/bash# author: tim.man# version: 1.0# desc: check the RUNNING TRANSACTION over ST_OK=0  ST_WR=1  ST_CR=2  ST_

监控服务器Nagios之一 概述及安装

一.Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机等.在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知. Nagios原名为NetSaint,由Ethan Galstad开发并维护至今.NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒

监控案例之监控TCP连接数

五.监控案例之监控TCP 1. 安装agent,过程略 (下面是apt安装,如果是编译安装,请注意路径) 2.监控脚本 cd /etc/zabbix/zabbix_agentd.conf.d/ vim check_tcp.sh #!/bin/bash tcp_conn_status(){ TCP_STAT=$1 ss -ant | awk 'NR>1 {++s[$1]} END {for(k in s) print k,s[k]}' > /tmp/tcp_conn.txt TCP_STAT_V

nagios 添加自定义监控项目监控mysql数据库死锁

nagios 添加自定义监控项目 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 系统环境:CentOS Linux release 7.2.1511 (Core) nagios 版本: 2.15 这里配合pt-dead-logger插件了,运行了这个插件,有死锁就会在test.deadlocks表写入死锁的信息 这里通过检测这个表是否增加了行数来发报警 nagios客户端自定义脚本: ###这里为了省事,直接把数据库的用户,

Nagios 系统监控

Nagios 系统监控 Nagios 是一款免费的开源 IT 基础设施监控系统,功能强大,灵活性强,能有效监控 Windows.Linux.VMware 和 Unix 主机状态,交换机.路由器等网络设置等.一旦主机或服务状态出现异常时,会发出邮件或短信报警第一时间通知 IT 运营人员,在恢复后发出正常的邮件或短信.Nagios 结构简单,可维护性强,提供一个可选的基于浏览器的 Web 界面,方便管理人员查看系统的运行状态,网络状态.服务状态.日志信息,以及其它异常现象. 一.Nagios 结构简

shell编程之【nagios自定义监控系统磁盘脚本】

之前写了一篇文章主要介绍nagios的搭建使用 http://msiyuetian.blog.51cto.com/8637744/1704346 下面这篇文章主要介绍nagios自定义监控系统磁盘的脚本实现. Nagios可以识别4种状态返回信息,即 0 表示状态正常(OK).1 表示出现警告(WARNING).2 表示出现非常严重的错误(CRITICAL),3 表示未知错误(UNKNOWN).Nagios根据插件返回来的值,来判断监控对象的状态,并通过web显示出来.我们就可以利用上面这个特性

awk:nagios流量监控插件

#!/bin/awk -f #function: nagios插件:细定每个网卡的监阀值,指定参数时单位为MB(如果监控周期为1分钟,则指定的参数为1分钟传输的数据大小,非Mbit/s) # #Usage:服务器(WAN:em1;LAN:em2),带宽为下行:100Mbit/s,上行:100/3约等于33.3Mbit/s(一般为下行三分之一),报警阀值按80%计算,nagios每分钟监控一次,如下: #接收(上行):100/8*0.8*60=600(单位MB) #发送(下行):100/3/8*0

Nagios记录系统监控日志

#!/bin/bash while : do vmr=`vmstat | tail -1 | awk '{print $1}'` if [ ${vmr} -gt 4 ] then date >> /root/monitor.txt vmstat >> /root/monitor.txt netstat -anp >> /root/monitor.txt ps -aux>> /root/monitor.txt last >> /root/monit