虚拟机丢包问题排查处理

故障现象

同一台物理机上的多台虚拟机同时出现应用服务超时、无法访问等现象，ping虚拟机和物理机丢包严重。

故障原因

物理机上某台虚拟机建立了大量连接，导致物理机连接追踪表被大量ESTABLISHED连接记录塞满，进而出现丢包现象。

处理方法

调整物理机内核参数，增大最大连接追踪记录数、减小ESTABLISHED、TIME_WAIT、CLOSE_WAIT、FIN_WAIT等连接记录的超时时间。

排查过程

一开始从业务层面排查，分析是否有某台虚拟机占用带宽的情况，但是排查监控和实时流量并没有发现问题，未果。第二次出现问题时，在宿主机上ping故障虚拟机，出现“ping: sendmsg: Operation not permitted”的报错：

# ping 172.16.3.5
PING 172.16.3.5 (172.16.3.5) 56(84) bytes of data.
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted
ping: sendmsg: Operation not permitted

查看内核日志，报错如下：

# dmesg | tail
[64802472.971773] nf_conntrack: table full, dropping packet
[64802472.972242] nf_conntrack: table full, dropping packet
[64802472.973668] nf_conntrack: table full, dropping packet
[64802472.978622] nf_conntrack: table full, dropping packet
[64802472.988458] nf_conntrack: table full, dropping packet
[64802472.991945] nf_conntrack: table full, dropping packet
[64802472.998772] nf_conntrack: table full, dropping packet
[64802472.999542] nf_conntrack: table full, dropping packet
[64802473.001464] nf_conntrack: table full, dropping packet
[64802473.001768] nf_conntrack: table full, dropping packet

发现是由于连接追踪表满导致丢包。其实这个问题出现过一次，当时是存在大量TIME_WAIT连接记录所致，现在这个问题是存在大量ESTABLISHED连接记录所致：

# cat /proc/net/nf_conntrack | awk ‘/^.*tcp.*$/ {count[$6]++} END {for(state in count) print state, count[state]}‘
LAST_ACK 36
SYN_RECV 52
CLOSE_WAIT 350
CLOSE 844
ESTABLISHED 246265
FIN_WAIT 4
SYN_SENT 993
TIME_WAIT 9996

找到问题所在就好办了，通过调整相关内核参数解决：

# sysctl -a | grep nf_conntrack
net.nf_conntrack_max = 2097152
net.netfilter.nf_conntrack_max = 2097152
net.netfilter.nf_conntrack_tcp_timeout_fin_wait = 30
net.netfilter.nf_conntrack_tcp_timeout_time_wait = 30
net.netfilter.nf_conntrack_tcp_timeout_close_wait = 60
net.netfilter.nf_conntrack_tcp_timeout_established = 3600

将以上参数写入/etc/sysctl.conf中，执行sysctl -p生效。

另外还有net.netfilter.nf_conntrack_buckets参数，指定哈希表的大小。在4.8及以上的内核可以通过sysctl修改，在4.8之前的内核中是只读的，只能通过修改/sys/module/nf_conntrack/parameters/hashsize来修改。

参考资料

nf_conntrack: table full, dropping packet. 终结篇

使用sysctl修改nf_conntrack_bucket

[踩坑总结] nf_conntrack: table full, dropping packet

原文地址：https://www.cnblogs.com/ltxdzh/p/11288988.html

时间： 2024-10-11 01:28:07

虚拟机丢包问题排查处理

虚拟机丢包问题排查处理的相关文章

ping虚拟机丢包问题分析

STP 抖动导致内网丢包

Linux NAT哈希表满导致服务器丢包

linux 下使用 tc 模拟网络延迟和丢包

客户端本地到服务器丢包的检查方法

【利用WANem做限速策略】WANem模拟丢包和延时

一次由于网卡流量跑满引起的服务器丢包总结

linux 下使用 tc 模拟网络延迟和丢包(转)

某公司无线网丢包处理