断图 first network error, wait for 15 seconds

前几天,刚和群友讨论过这个问题,他是snmp交换机的时候,图时断时续的。

我这里也出现这样的案例,不过是监控tomcat的时候,jstat占用cpu 90多,

引起正常的监控项目断图。

其实,它让我们wait for 15 seconds,那么意思不断叠加15s后,是不是5分钟后不能出图,

还是负载高不能出图?

案例

zabbix_server.log

12961:20170512:113910.624 Zabbix agent item "java.discovery_status[service_tomcat,all]" on host "172.x.x.x" failed: first network error, wait for 15 seconds

排查

top

top - 14:34:25 up 344 days, 21:11,  1 user,  load average: 1.23, 1.09, 1.10

Tasks: 176 total,   1 running, 174 sleeping,   1 stopped,   0 zombie

Cpu(s): 25.0%us,  5.0%sy,  0.0%ni, 69.7%id,  0.1%wa,  0.0%hi,  0.2%si,  0.0%st

Mem:   3925304k total,  3672532k used,   252772k free,   174944k buffers

Swap:  4128764k total,    79512k used,  4049252k free,  2122448k cached

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND

2484 tomcat    20   0 3333m  30m  12m S 99.8  0.8   9065:51 jstat

说明jstat异常,这个jstat是zabbix脚本用来获取tomcat数据的。

[[email protected] local]# ps -ef|grep jstat
root      2483     1  0 May06 ?        00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470
tomcat    2484  2483 99 May06 ?        6-07:03:49 /usr/java/jdk/bin/jstat -gcutil 12470
root     17095 32501  0 14:32 pts/0    00:00:00 grep jstat
[[email protected] local]# ps -ef|grep jstat
root      2483     1  0 May06 ?        00:00:00 sudo -u tomcat /usr/java/jdk/bin/jstat -gcutil 12470
tomcat    2484  2483 99 May06 ?        6-07:04:20 /usr/java/jdk/bin/jstat -gcutil 12470
root     17097 32501  0 14:32 pts/0    00:00:00 grep jstat
解决
kill -9 2484就正常了,重启zabbix_agentd,观察负载为0.5左右。

刚开始怀疑是触发器的问题,还把触发器给禁用了。

至于这个问题的产生原因,有可能有几点
强制杀死tomcat进程引起的
python脚本jstat_status.py调用jstat后,是不是成僵死进程了?
还是这个程序死锁的原因?难道python有什么特别注意的地方?

还需要做的
1.需要用python或者elk分析zabbix server端日志
发现好多not suitable for value type [Numeric (unsigned)] and data type [Decimal]
2.某个进程占用cpu 80以上就是有问题,这个也需要添加监控中

其他断图原因有以下:

1.数据库优化
比如Threads_created   | 4925853
2.zabbix server优化

3.参考菜光光的博客,从sql方面排查
http://caiguangguang.blog.51cto.com/1652935/1377089/
4.网卡问题
http://www.fyluo.com/?post=164
5.ZABBIX AGENT执行KEY,获取数据时间超过30s
参考http://blog.chinaunix.net/uid-8108137-id-4591738.html
解决方案二
修改AGENT执行key的最大时间,源码当中限制了最大时间30S。得修改源码。
并且经过测试只修改AGETN的最大执行时间还不可以,SERVER或PROXY端的最大执行时间也是30S.
只修改AGENT端30S,ITEM可以采集ACTIVE的方式就可以了。

系统的稳定性,才是服务器稳定的前提。

时间: 2024-08-25 01:19:35

断图 first network error, wait for 15 seconds的相关文章

zabbix_agent反复报警-日志显示“first network error”的问题

1.问题的展现 在zabbix上有那么几个 IP 反复地报错"Zabbix agent on XXXX is unreachable for 10 minutes",用telnet测试客户端端口没问题,正常.过上那么或几分钟或几十分钟,就消失了,然后一会就又报警,这样下来机器的数据曲线是断断续续的,影响虽不大,不过挺烦人.SA上去也不仔细看,把服务一重启也不管有没有解决问题.      后来我自己上去,查看服务端日志.除了说"某个Key 的数据无法获得,超时而失败的"

putty putty network error software caused connection abort

putty连接中断 network error software caused connection abort 翻译: 网络错误软件造成连接中断 解决方法 在linux服务器端设置(找到并改成下面的样子并保存): #vi /etc/ssh/sshd_config TCPKeepAlive yes LoginGraceTime 0 ClientAliveInterval 60 保存 :wq 2.重启服务 #service sshd resart

oculus network error ovr53225466

最近调试oculus,搬运代码到win10平台,发现最近FB对oculus的服务程序进行了更新,必须要登陆账号才能进行调试. 于是安装oculusclient,但是登陆的过程中出现了问题,如果不用代理会出现network error,这个问题是因为oculus用的脸书的服务器,脸书是被墙的主要对象. 所以,我们需要用一些代理软件,比如蓝灯,赛风这个代理都可以进行全局代理. 但是使用了代理还是会出现ovr53225466,这是因为dns解析错误导致的. 把dns服务器设为google的dns服务器

使用Zabbix中遇到的问题:snmp监控端口流量偶尔会断图

在使用zabbix的snmp方式的监控端口流量时,某一个图总是断断续续的(被监控设备有较大的端口流量),经常会出现几分钟内没有图像的问题. 这是因为item中是使用MIB中的ifInOctets(OID:1.3.6.1.2.1.2.2.1.10)和 ifOutOctets(OID:1.3.6.1.2.1.2.2.1.16)作为获取端口流量的依据的.其表示某接口流入或流出的数据总量. 这里解释一下,因为取到的值是数据的总量,所以我们在设置item时会使用前后两次取到的差值除以时间得到一个接口速率.

android 中Network error IOException: failed to connect to /127.0.0.1 (port 1433): connect failed: ECONNREFUSED (Connection refused)

下面对android中出现的Network error IOException: failed to connect to /127.0.0.1 (port 1433): 做一下总结: 当用android程序调用本地的sqlserver的时候,当连接ip写成127.0.0.1的时候,怎么都连不通,出现以下的错误信息: 感觉好像是代码有问题或者是清单文件中某个权限忘加了,其实不是这样的.原来模拟器默认把127.0.0.1和localhost当做本身了,在模拟器上可以用10.0.2.2代替127.0

使用putty远程登录Ubuntu时,报Network error:Connection refused错误解决方案

使用putty 远程登陆Ubuntu 时提示 Network error:Connection refused 就是因为Ubuuntu没有安装ssh服务. 执行安装命令:sudo apt install openssh-server 安装完成后,远程登陆正常 原文地址:https://www.cnblogs.com/wenyi/p/10807376.html

Weex playground手机扫描二维码后显示network error解决

首先可以参考下面的博客 Weex playground 手机扫描二维码报错network error解决办法 1.手机和电脑是否在同一局域网: 2.第一步确认没问题后,还是报network error,确认下PC上wifi的连接策略是否为专用: 3.在npm start之前,手动再运行npm install 安装一次 若还未解决,可以尝试禁用虚拟网卡,如下图: 原文地址:https://www.cnblogs.com/ZYTZ/p/12113725.html

解决MindManager 15中文版思维导图的runtime error

MindManager思维导图软件是美国Mindjet公司研发出来的,MindManager漂洋过海来到中国,难免会出现水土不服,即兼容性的问题,其中runtime error是最常见的兼容性问题,本教程主讲出现runtime error的解决方法. 打开文件显示错误提示: Runtime Error! Program:C:\Program Files\MindManager 15\Mindmanager.exe abnormal program termination. 原因分析: 这是因为M

四川:饲养员遭大熊猫疯狂撕咬 脚筋腕骨被咬断(图)l6

詹姆斯一世跨出了将罪犯运送往北美殖民地的第一步.在1614年的1月24日,他向枢密院下发了一道命令:"尽管我们的严法已经将许多重罪犯处以死刑,仍然有越来越多的罪犯产生,所以,我们现在必须要采取紧急的补救措施."为了既能保证正义,又能展现慈悲,送那些犯人去北美殖民地改造就成为了顺理成章的决定,"在那里,对他们的惩罚能让他们活下来,并且为大英帝国创造财富."在这道命令下达后不久,第一批17名罪犯被赦免,随后被托马斯·史密斯爵士的东印度公司送往海外. 该市场是当地重要的贸