虚拟机丢包问题排查处理

故障现象

同一台物理机上的多台虚拟机同时出现应用服务超时、无法访问等现象,ping虚拟机和物理机丢包严重。

故障原因

物理机上某台虚拟机建立了大量连接,导致物理机连接追踪表被大量ESTABLISHED连接记录塞满,进而出现丢包现象。

处理方法

调整物理机内核参数,增大最大连接追踪记录数、减小ESTABLISHED、TIME_WAIT、CLOSE_WAIT、FIN_WAIT等连接记录的超时时间。

排查过程

一开始从业务层面排查,分析是否有某台虚拟机占用带宽的情况,但是排查监控和实时流量并没有发现问题,未果。第二次出现问题时,在宿主机上ping故障虚拟机,出现“ping: sendmsg: Operation not permitted”的报错:

# ping 172.16.3.5
PING 172.16.3.5 (172.16.3.5) 56(84) bytes of data.
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted

查看内核日志,报错如下:

# dmesg | tail
[64802472.971773] nf_conntrack: table full, dropping packet
[64802472.972242] nf_conntrack: table full, dropping packet
[64802472.973668] nf_conntrack: table full, dropping packet
[64802472.978622] nf_conntrack: table full, dropping packet
[64802472.988458] nf_conntrack: table full, dropping packet
[64802472.991945] nf_conntrack: table full, dropping packet
[64802472.998772] nf_conntrack: table full, dropping packet
[64802472.999542] nf_conntrack: table full, dropping packet
[64802473.001464] nf_conntrack: table full, dropping packet
[64802473.001768] nf_conntrack: table full, dropping packet

发现是由于连接追踪表满导致丢包。其实这个问题出现过一次,当时是存在大量TIME_WAIT连接记录所致,现在这个问题是存在大量ESTABLISHED连接记录所致:

# cat /proc/net/nf_conntrack | awk ‘/^.*tcp.*$/ {count[$6]++} END {for(state in count) print state, count[state]}‘
LAST_ACK 36
SYN_RECV 52
CLOSE_WAIT 350
CLOSE 844
ESTABLISHED 246265
FIN_WAIT 4
SYN_SENT 993
TIME_WAIT 9996

找到问题所在就好办了,通过调整相关内核参数解决:

# sysctl -a | grep nf_conntrack
net.nf_conntrack_max = 2097152
net.netfilter.nf_conntrack_max = 2097152
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 30
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 30
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_established = 3600

将以上参数写入/etc/sysctl.conf中,执行sysctl -p生效。

另外还有net.netfilter.nf_conntrack_buckets参数,指定哈希表的大小。在4.8及以上的内核可以通过sysctl修改,在4.8之前的内核中是只读的,只能通过修改/sys/module/nf_conntrack/parameters/hashsize来修改。

参考资料

nf_conntrack: table full, dropping packet. 终结篇

使用sysctl修改nf_conntrack_bucket

[踩坑总结] nf_conntrack: table full, dropping packet

原文地址:https://www.cnblogs.com/ltxdzh/p/11288988.html

时间: 2024-10-11 01:28:07

虚拟机丢包问题排查处理的相关文章

ping虚拟机丢包问题分析

宿主机ip:192.168.1.2虚拟机ip:192.168.1.3第三台机器ip:192.168.1.4 问题说明:第三台机器 ping 虚拟机 丢包严重第三台机器 ping 宿主机 正常宿主机 ping 虚拟机 正常虚拟机 ping 任何机器 正常 问题分析:根据现象排除了防火墙问题,排除了虚拟机设置的问题.根据现象需要确认第三台机器ping虚拟机时到底ping的是哪台机器,于是使用arp -a进行查看,发现arp -a中有与虚拟机mac地址相同的记录.所以判断应该是mac地址的问题. 问题

STP 抖动导致内网丢包

故障现象内网访问公网出现不规律丢包现象 排查解决方法1.stp类型stp为mstp 单实例 2.接口tc报文发送接收对比接入.汇聚.核心 disp stp tc 报文数量,基本锁定故障位置 3.access接口配置边缘端口接入层交换机部分接口未配置边缘端口,增加配置 4.部分特殊接口关闭stpdisp stp tc发现某个端口特别异常,tc收包特别多,且disp stp bpdu-statistc interface 发现最近也在变动,disp lldp nei l显示对端设备为mstp专线连接

Linux NAT哈希表满导致服务器丢包

发现ECS Linux服务器出现间歇性丢包的情况,通过tracert.mtr等手段排查,外部网络未见异常. 同时,如下图所示,在系统日志中重复出现大量如下错误信息: Jun 13 15:20:23 web3 kernel: nf_conntrack: table full, dropping packet.Jun 13 15:20:24 web3 kernel: nf_conntrack: table full, dropping packet.Jun 13 15:20:24 web3 kern

linux 下使用 tc 模拟网络延迟和丢包

1 模拟延迟传输简介 netem 与 tc: netem 是 Linux 2.6 及以上内核版本提供的一个网络模拟功能模块.该功能模块可以用来在性能良好的局域网中,模拟出复杂的互联网传输性能,诸如低带宽.传输延迟.丢包等等情况.使用 Linux 2.6 (或以上) 版本内核的很多发行版 Linux 都开启了该内核功能,比如 Fedora.Ubuntu.Redhat.OpenSuse.CentOS.Debian 等等. tc 是Linux 系统中的一个工具,全名为 traffic control(

客户端本地到服务器丢包的检查方法

如果用户本地到服务器出现ping丢包或直接无法连接的时候,可以通过如下步骤进行排查分析:   客户端本地到服务器丢包的检查方法 1. ping服务器IP地址或域名,查看丢包情况:     ping 140.205.140.234 -n 100  说明: -n 后面的数字表示要进行的ping测试次数: 主要关注如下下图所示所统计的丢包率和平均超时时间: 2. 使用MTR工具跟踪下到服务器的链路情况: Windows下,使用所示的WinMTR工具进行跟踪测试: 用法:打开软件后,在[hosts]框中

【利用WANem做限速策略】WANem模拟丢包和延时

虚拟机安装好WANem,IP配置为192.168.1.250 调整本地网络的网关,从192.168.1.1变成192.168.1.250即可. 接下来,调整丢包和延时的参数: 访问250上的网页http://192.168.1.250/WANem/ 选择:" Advanced Mode" - "start" 设置Delay time(ms) 和 Loss(%) 即可.

一次由于网卡流量跑满引起的服务器丢包总结

最近收到线上一台DB服务器ping丢包,丢包率一直在30%左右.通过Zabbix监控查看了服务器CPU,内存都很正常,网卡流量也不高,基本在100M左右. 首先确认一下服务器硬件是否正常,由于没有收到硬件报警.登录服务器通过HP管理工具在此确认了硬件信息都正常(硬盘,缓存卡,内存等).  第二步在排查一下系统问题,通过top,ps等命令也没有发现什么异常,基本上排除系统问题.  第三步查看了一下该服务器上联监控机端口流量,也都很正常,由于收到只有这一台服务器报警,也排除了上联交换机故障问题. 

linux 下使用 tc 模拟网络延迟和丢包(转)

1 模拟延迟传输简介 netem 与 tc: netem 是 Linux 2.6 及以上内核版本提供的一个网络模拟功能模块.该功能模块可以用来在性能良好的局域网中,模拟出复杂的互联网传输性能,诸如低带宽.传输延迟.丢包等等情况.使用 Linux 2.6 (或以上) 版本内核的很多发行版 Linux 都开启了该内核功能,比如 Fedora.Ubuntu.Redhat.OpenSuse.CentOS.Debian 等等. tc 是Linux 系统中的一个工具,全名为 traffic control(

某公司无线网丢包处理

某公司网络架构为:出口路由器--行为管理设备--华为核心--锐捷无线控制器 | 华为傻瓜接入----锐捷无线AP 使用业务为两种:1.办公区电脑无线网办公   2.工作区扫码枪扫货 客户反馈在使用过程扫码枪会出现严重的丢包现象,导致业务无法正常处理,需要查找问题原因并进行解决. 接到客户反馈后,首先梳理了无线丢包可能的原因:1.干扰 2.带宽压力过大    3.有线网络异常 到达客户现场后,通过wirelessmon扫描后发现,环境中确实存在干扰,但是只是轻量的干扰,不会影响到业务的正常使用.