最近公司将cacti监控服务器搬迁,因为cacti主机ip变更,搬迁之后导致被监控主机无法正常上报数据,在经过一天的问题排查之后,最终找到原因,分享一下:
首先,修改snmpd.conf配置文件中的数据接收端ip,修改后,重启snmp服务器,然后可以在cacti监控页面看到主机状态已存活。
当天监控时候数据可以正常显示,可是到了第二天上午在打开监控页面的时候,发现部分主机有数据,大部分主机没有图片展示。于是首先想到的是重启所有SNMP,可是没有效果,于是从cacti日志信息入手,进入目录,/var/log/cacti 查看cacti.log,发现一堆看不懂的信息,从大概意思看,应该是数据库连接错误错误。
但是是那一台服务器了,没有显示出来。同时查看另外一个日志文件poller-error.log,发现也没有什么具体的错误提示
于是想到能否通过cacti监控页面查询具体的错误日志,还好,cacti在功能上提供了一个日志查询界面,通过上面的信息可以查到具体是那台服务器异常。
通过这个分析之后,发现上面提示的mysql connect error 是因为我的cacti监控了被监控主机上面的mysql服务,但是被监控主机的mysql主机db里面,mysql.user表里面的host还是原来的cacti server ip,所以连接异常,于是将对应ip调整。
本以为接下来会正常,可惜还是没有数据。于是就思考了一下是不是cacti跟被监控主机时间不同步了,因为cacti server同时还兼做ntp主服务器,带着这个思路,修改了各个被监控主机的ntp配置文件,然后执行ntpq -p 查看同步状态。
执行之后,大部分被监控的主机开始正常绘图了,但是被监控主机的mysql信息,还是没有正常显示出来,于是问题又回到了原点,在网上查了一堆的资料之后,对于poller-error.log 中的异常,是因为php版本不支持 对应的函数,php从 5.3之后就不支持eregi_replace,而我系统使用的php是5.3.2的版本,cacti使用的是php5.1配置。但是这个不是主要问题,不会影响功能,所有可以排除。
在进一步分析问题之后,发现既然是mysql连接错误,我就从cacti sever上执行mysql 连接被监控主机,
结果测试一看,问题暴露出来了,通过网上搜索,是因为之前主监控sever 连接被监控sever 数据库失败次数太多,导致被blocked,实质上是mysql一种安全防护机制,默认的max_connection_errors 是10,可以通过 show variables like ‘%max_connection_errors%‘; 查看,解决方法就是刷新host或者修改连接数,我选择了第一种方法 mysqladmin flush-hosts -h192.168.1.1 -P3308 -uroot -prootpwd; 最终问题解决。
在期间,一直想通过snmp 去验证mysql 是否能正常获取数据,但是没有找到。
snmpwalk 是一个不错的工具,但是不能满足需求
用法 Snmpwalk –v 2c –c public 192.168.17.191 1.3.6.1.2.1.2.2.1.3
其中 -v 是指版本,-c 是指密钥也就是客户端 snmp.conf 里面所设置的,下面类同。
后来在分析了cacti的配置文件后,发现他主要是通过php来编写的,其中有一个文件 mysql_stats.php 在目录usr/share/cacti/site/scripts里,查看 mysql_stats.php 代码,可以通过传输参数来验证mysql的功能
* usage:
* mysql_stats.php <section> db_host db_user db_password [status_var]
于是,可以通过 php mysql_stats.php seciton ip user passwrd 来测试
如果不知道 seciton 指的是什么 可以执行 php mysql_stats.php ip user passwrd ,会提示secition 参数。