【问题记录】记一次ConnectionTimeout问题排查

最近做性能测试时,发现连接第三方系统时会有约1%的交易提示如下错误

nested
exception is org.apache.commons.httpclient.ConnectTimeoutException: The host did
not accept the connection within timeout of 10000 ms

起先抱着能google就google的思路去找,结果没找到相应的解决方案,只能自己一步一步去排查了,下面记录下排查过程。

抓拍问题现场

涉及到网络的问题,先抓个包,tcpdump走一波。

tcpdump -i eth0 host xxx.xxx.xxx.xxx > tcp.dmp

节选了一次TCP连接的整个内容,从三次握手到报文发送到四次挥手,下面将一次通讯分为三个部分进行讲解

包格式讲解
时间戳 协议类型 请求方地址>接收方地址 Flags [xxx], seq xxx,......,length

协议类型:此处针对TCP/IP协议,为IP

Flags常见值及含义

标识 含义
S 即SYN,用于建立连接
. .即ACK,可与其他组合使用比如[S.]代表SYN的ACK回执
P 即PSH,指示接收方应立即将数据交给上层
F 即FIN,用于断开连接
三次握手
09:23:00.038908 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [S], seq 2590465106, win 29200, options [mss 1460,sackOK,TS val 1752507811 ecr 0,nop,wscale 7], length 0
09:23:00.039329 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [S.], seq 148046299, ack 2590465107, win 14480, options [mss 1460,sackOK,TS val 2174555693 ecr 1752507811,nop,wscale 7], length 0
09:23:00.039341 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [.], ack 1, win 229, options [nop,nop,TS val 1752507811 ecr 2174555693], length 0

  1. 客户端发送SYN=1,seq=随机生成的序号到服务端,对应第一个包内容
  2. 服务端响应SYN=1,seq=服务端随机序号,ack=第一步中的seq+1给客户端,对应第二个包内容
  3. 客户端发送SYN=0,seq=第一步中的seq+2,ack=服务端的随机序号+1给服务端,对应第三个包

    至此连接建立完成

    TCP连接为全双工的,既可以C->S,亦可S->C

请求发送/响应接收
09:23:00.039406 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [P.], seq 1:167, ack 1, win 229, options [nop,nop,TS val 1752507811 ecr 2174555693], length 166
09:23:00.039426 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [P.], seq 167:2259, ack 1, win 229, options [nop,nop,TS val 1752507811 ecr 2174555693], length 2092
09:23:00.039778 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [.], ack 167, win 122, options [nop,nop,TS val 2174555693 ecr 1752507811], length 0
09:23:00.039784 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [.], ack 2259, win 155, options [nop,nop,TS val 2174555693 ecr 1752507811], length 0
09:23:00.533102 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [P.], seq 1:972, ack 2259, win 155, options [nop,nop,TS val 2174555817 ecr 1752507811], length 971
09:23:00.533114 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [.], ack 972, win 244, options [nop,nop,TS val 1752507935 ecr 2174555817], length 0

  1. 每发送一次报文,对端需要做一次ACK回执,保证TCP传输的可靠
  2. 包1和包2是客户端向服务端请求的,包3和包4是服务端回执的,包5是服务端响应的内容,包6是客户端对响应做的回执。
四次挥手
09:23:00.533121 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [F.], seq 972, ack 2259, win 155, options [nop,nop,TS val 2174555817 ecr 1752507811], length 0
09:23:00.533166 IP 192.168.1.100.51777 > 192.168.1.200.39045: Flags [F.], seq 2259, ack 973, win 244, options [nop,nop,TS val 1752507935 ecr 2174555817], length 0
09:23:00.533479 IP 192.168.1.200.39045 > 192.168.1.100.51777: Flags [.], ack 2260, win 155, options [nop,nop,TS val 2174555817 ecr 1752507935], length 0

此处因为使用了HTTP协议,且在系统头中设置了Connection=close,所以在请求处理完成后,服务端便会将连接关闭。

  1. 第一步:服务端发送FIN到客户端,对应包1。
  2. 第二步:客户端回执ACK到服务端,对应包2。
  3. 第三步:客户端发送FIN到服务端,对应包2。

因为第二、第三步都是从客户端发送到服务端,TCP协议实现时在此处做了合并,将ACK和FIN一并发给对端,减少了网络消耗。

  1. 第四步:服务端回执ACK到客户端,对应包3,连接释放完成。

问题分析

包是抓到了,可是在性能测试时,业务量特别大,如果纯粹靠手工分析的话,怕是要找到地老天荒了,为此写了一段Python代码来分析tcpdump的包,因为本次的问题为请求连接有问题,必然是三次握手的时候存在问题,所以以下代码主要分析三次握手时的情况。

Packet.py

解析包内容

import re

class Packet(object):
    ‘分组‘

    timestamp = ‘00:00:00.000000‘  # 时间戳
    from_addr = ‘0.0.0.0‘  # 源地址
    to_addr = ‘0.0.0.0‘  # 目的地址
    protocol_type = ‘IP‘  # 协议类型

    flags = ‘[S]‘
    seq = ‘0‘
    ack = ‘0‘
    length = 0  # 数据包长度

    def __init__(self, packet_str):
        hb = re.split(‘: ‘, packet_str)
        header = hb[0]
        body = hb[1]

        hs = re.split(‘[\s]‘, header)
        self.timestamp = hs[0]
        self.protocol_type = hs[1]
        self.from_addr = hs[2]
        self.to_addr = hs[4]

        bs = re.split(‘,\s‘, body)
        for b in bs:
            kv = re.split(‘\s‘, b, 1)
            k = kv[0]
            v = kv[1]
            if ‘Flags‘ == k:
                self.flags = v
            elif ‘seq‘ == k:
                if self.flags != ‘[P.]‘:
                    self.seq = v
            elif ‘length‘ == k:
                self.length = int(v)
            elif ‘ack‘ == k:
                self.ack = v

    def __str__(self):
        return self.timestamp + self.protocol_type + self.from_addr + ‘==>‘ + self.to_addr + self.flags + str(
            self.seq) + str(self.ack) + str(self.length)

ConnectionTimeoutAnalyze.py

分析dmp包内容

from tcpdump.Packet import Packet

client_addr = ‘192.168.1.100‘
server_addr = ‘192.168.1.200.39045‘

packet_times = {}  # 连接ID:时间
first_packets = [] #三次握手第一次的包

‘‘‘
第一步:syn=1,seq=xxx
第二步:syn=1,seq=yyy,ack=xxx+1
第三步:syn=0,seq=xxx+1,ack=yyy+1
‘‘‘
with open(‘C:\\Users\\xxx\\Desktop\\39045.dmp‘) as dmp:
    for line in dmp.readlines():
        line = str(line.strip())
        packet = Packet(line)
        if packet.from_addr.startswith(client_addr) and packet.flags == ‘[S]‘:
            first_packets.append(packet)

        id = packet.from_addr + packet.to_addr + packet.flags + ‘ack=‘ + packet.ack
        if packet.flags != ‘[S.]‘:
            id = id + ‘seq=‘ + packet.seq

        packet_times[id] = packet.timestamp

print(‘请求ID(客户端IP.端口\\请求序号)\t第一步时间\t\t第二步时间\t\t第三步时间‘)
for fpack in first_packets:
    sync_time = fpack.timestamp  # 第一步的时间
    id = fpack.to_addr + fpack.from_addr + ‘[S.]‘ + ‘ack=‘ + str(int(fpack.seq) + 1)  # 第二步:ack=第一步的seq+1
    ack_time = packet_times.get(id)
    conn_time = None
    if ack_time is not None:
        conn_time = packet_times.get(fpack.from_addr + fpack.to_addr + ‘[.]ack=1seq=0‘)  # 第三步:ack=1,seq无值
    print(
        ‘[‘ + fpack.from_addr + ‘\\‘ + fpack.seq + ‘]\t‘ + sync_time + ‘\t\t‘ + str(ack_time) + ‘\t\t‘ + str(conn_time))

通过代码分析,发现存在部分创建连接时第二步的时间为None的,因此可以得出结论为发出去的SYN请求包没有得到服务端的回执,可以光明正大的摔锅给网络/第三方了![]

原文地址:https://www.cnblogs.com/itaot/p/12547656.html

时间: 2024-08-30 17:14:30

【问题记录】记一次ConnectionTimeout问题排查的相关文章

记一次内存泄露排查

最后在实现一个无限循环的ViewPager,展示图片,功能实现了,但是运行一段时间之后会挂掉. 多亏了AndroidStudio的Memory Monitor,发现了内存一直在增长. 怎么触发gc内存都不会减少,确定了内存泄露了,但是不知哪里出问题了. 一时想到的排查内存泄露的工具,就是MAT了,但是没找到AndroidStudio的MAT插件. 只能先把java heap dump出来先,如下图所示 dump出来之后,hprof文件会保存在项目下captures目录,之前一直不知到,找了很久.

记录一次loadavg报警及其排查

问题描述: 上线项目之后一直会有loadavg报警 服务器上线一段时间后运行没问题,在某一个时间段(通常是上线2小时以后),loadreport会突然顶到很高(100以上)然后逐渐降低. 多出了2000多个Timer线程(这个看服务具体情况,多出的线程不一定多少) 如图: 排查过程: 经过最后逐一排查(查了足足十天),发现是在一个jar包里修改了一个关于数据库的连接池的配置导致的这个问题. 使用ps查到java进程id;__具体命令:ps -ef | grep java 之后使用ps查看占用cp

记一个程序oom的排查过程

一,背景 收到应用服务报警,然后登录上服务器查看原因,发现进程不再了. 二,问题分析 1,那么判断进程被干掉的原因如下: (1),机器重启了 通过uptime看机器并未重启 (2),程序有bug自动退出了 通过查询程序的error log,并未发现异常 (3),被别人干掉了 由于程序比较消耗内存,故猜想是不是oom了,被系统给干掉了.所以查messages日志,发现的确是oom了: Jul 27 13:29:54 kernel: Out of memory: Kill process 17982

记录一次抽奖超发排查问题过程

接到运营方提出的bug,说是移动端优惠券超发,通过拉取线上数据,确实存在超发现象,而且恰好是设定的两倍. 通过在测试和仿真环境新建一个活动页面添加优惠券进行测试,又不会出现超发现象,想到可能是并发没控制好,找代码问题,根据逻辑下来没什么问题,微调redis缓存控制并发策略,提测上线. 上线后第二天接到运营反馈,还是存在超发现象,而且仅仅是移动端超发,PC端不会超发,在测试仿真模拟领取,用测试工具模拟并发,都不会出现超发现象.到这没办法解决了,直接报告领导存在这样的问题,没招了,怎么办? 领导询问

git 填坑记录----记一次git低版本引发的问题

git版本略低,引发的血案 原本部署在阿里云上的项目,准备放到内网jenkins上发布,配置完成后发版,jenkins变红了,详细错误信息如下 ERROR: Error cloning remote repo 'origin' hudson.plugins.git.GitException: Command "git fetch --tags --progress https://gitlab.kingtool.top/admin-public/cshopfront.git +refs/head

Entity Framework 6.X实现记录执行的SQL功能

Entity Framework在使用时,很多时间操纵的是Model,并没有写sql语句,有时候为了调试或优化等,又需要追踪Entity framework自动生成的sql(最好还能记录起来,方便出错时排查) 方式一: 通过System.Data.Entity.DataBase.Log属性指定一个无返回值的委托,来实现记录日志的功能 public partial class EFContext<T> : DbContext where T : class { public EFContext(

linux常用命令 、查看日志、web排查

linux常用命令 ps aux|grep xxx (比如 ps aux|grep tomcat ps aux|grep tomcat-portalvip ps aux|grep nginx 等) rpm -qa|grep xxx (查找系统有没有安装 比如 rpm -qa|grep mysql rpm -qa|grep MySQL rpm -qa|grep jdk 等) 强制卸载 rpm -e 上一步查找结果的内容 --nodeps 查看端口是否被占用 netstat -an|grep 端口

MySQL数据库(3)_MySQL数据库表记录操作语句

附: MYSQL5.7版本sql_mode=only_full_group_by问题 1.查询当前sql_mode: select @@sql_mode 2.查询出来的值为: set @@sql_mode ='ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'; 3.修改s

记Mysql升级的一波三折

环境:mysql-5.1.61 操作系统:Cent-os6.3 目的:升级为mysql 5.6.19 首先,yum是不可行的.因为yum源没更新,我已经使用了163网易的源,但是还是不行.最新版仍然不是5.6.没办法,mysql分区是5.5之后的功能,要使用分区功能,就必须升级.. 去官网下载地址:http://dev.mysql.com/downloads/mysql/ 我是cent os,选择了Red Hat Enterprise Linux版本. 由于系统是i686的,所以选择i686版本