瞬发大量并发连接 造成MySQL连接不响应的分析

http://www.actionsky.com/docs/archives/252

2016年12月7日  黄炎

目录

现象

Sysbench对MySQL进行压测, 并发数过大(>5k)时, Sysbench建立连接的步骤会超时.

猜想

猜想: 直觉上这很简单, Sysbench每建立一个连接, 都要消耗一个线程, 资源消耗过大导致超时.

验证: 修改Sysbench源码, 调大超时时间, 仍然会发生超时.

检查环境

猜想失败, 回到常规的环境检查:

  1. MySQL error log 未见异常.
  2. syslog 未见异常.
  3. tcpdump 观察网络包未见异常, 连接能完成正常的三次握手; 只观察到在出问题的连接中, 有一部分的TCP握手的第一个SYN包发生了重传, 另一部分没有发生重传.
  4. 自己写一个简单的并发发生器, 替换sysbench, 可重现场景. 排除sysbench的影响

猜想2

怀疑 MySQL 在应用层因为某种原因, 没有发送握手包, 比如卡在某一个流程上:

  1. 检查MySQL堆栈未见异常, 仿佛MySQL在应用层没有看到新连接进入.
  2. 通过strace检查MySQL, 发现accept()调用确实没有感知到新连接.

怀疑是OS的原因, Google之, 得到参考文档: A TCP “stuck” connection mystery

分析

参考文档中的现象跟目前的状况很类似, 简述如下:

正常的TCP连接流程:

  1. Client 向 Server 发起连接请求, 发送SYN.
  2. Server 预留连接资源, 向 Client 回复SYN-ACK.
  3. Client 向 Server 回复ACK.
  4. Server 收到 ACK, 连接建立.
  5. 在业务层上, Client和Server间进行通讯.

当发生类似SYN-flood的现象时, TCP连接的流程会使用SYN-cookie, 变为:

  1. Client 向 Server 发起连接请求, 发送SYN.
  2. Server 不预留连接资源, 向 Client 回复SYN-ACK, 包中附带有签名A.
  3. Client 向 Server 回复ACK, 附带 f(签名A) (对签名进行运算的结果).
  4. Server 验证签名, 分配连接资源, 连接建立.
  5. 在业务层上, Client和Server间进行通讯.

当启用SYN-cookie时, 第3步的ACK包因为 某种原因 丢失, 那么:

  1. 从Client的视角, 连接已经建立.
  2. 从Server的视角, 连接并不存在, 既没有建立, 也没有”即将建立” (若不启用SYN-cookie, Server会知道某个连接”即将建立”)

发生这种情况时:

  1. 若业务层的第一个包应是从 Client 发往 Server, 则会进行重发或抛出连接错误
  2. 若业务层的第一个包应是从 Server 发往 Client的, Server不会发出第一个包. MySQL的故障就属于这种情况.

TCP握手的第三步ACK包为什么丢失

参考文档中, 对于TCP握手的第三步ACK包的丢失原因, 描述为:

Some of these packets get lost because some buffer somewhere overflows.

我们可以通过Systemtap进一步探究原因. 通过一个简单的脚本:

probe kernel.function("cookie_v4_check").return {
        source_port = @cast($skb->head + $skb->transport_header, "struct tcphdr")->source
        printf("source=%d, return=%d\n", readable_port(source_port), $return)
}

function readable_port(port) {
        return (port & ((1<<9)-1)) << 8 | (port >> 8)
}

观察结果, 可以确认cookie_v4_check (syn cookie机制进行包签名检查的函数)会返回 NULL(0). 即验证是由于syn cookie验证不通过, 导致TCP握手的第三步ACK包不被接受.

之后就是对其中不同条件进行观察, 看看是哪个条件不通过. 最终原因是accept队列满 (sk_acceptq_is_full):

796 static inline bool sk_acceptq_is_full(const struct sock *sk)
797 {
798         return sk->sk_ack_backlog > sk->sk_max_ack_backlog;
799 }

恢复故障与日志的正关联

在故障处理的一开始, 我们就检查了syslog, 结论是未见异常.

当整个故障分析完成, 得知了故障与syn cookie有关, 回头看syslog, 里面是有相关的信息, 只是和故障发生的时间不匹配, 没有正关联, 因此被忽略.

检查Linux源码:

6130         if (!queue->synflood_warned &&
6131             sysctl_tcp_syncookies != 2 &&
6132             xchg(&queue->synflood_warned, 1) == 0)
6133                 pr_info("%s: Possible SYN flooding on port %d. %s.  Check SNMP counters.\n",
6134                         proto, ntohs(tcp_hdr(skb)->dest), msg);

可以看到日志受到了抑制, 因此日志与故障的正关联被破坏.

粗看源码, 每个listen socket只会发送一次告警日志, 要获得日志与故障的正关联, 必须每次测试重启MySQL.

解决方案

这种故障一旦形成, 难以检测; 系统日志中只会出现一次, 在下次重启MySQL之前就不会再出现了; Client如果没有合适的超时机制, 万劫不复.

解决方案:
1. 修改MySQL的协议, 让Client先发握手包. 显然不现实.
2. 关闭syn_cookie. 有安全的人又要跳出来了.
3. 或者调高syn_cookie的触发条件 (syn backlog长度). 降低系统对syn flood的敏感度, 使之可以容忍业务的syn波动.

有多个系统参数混合影响syn backlog长度, 参看http://blog.dubbelboer.com/2012/04/09/syn-cookies.html

时间: 2024-08-24 17:17:46

瞬发大量并发连接 造成MySQL连接不响应的分析的相关文章

phpmyadmin连接远程mysql

phpmaadmin连接远程mysql 连接远程mysql步骤 .保证已经有了phpmyadmin,如果没有,去http://www.phpmyadmin.net/home_page/downloads.php下载,安装:文章这里用集成开发环境wamp自带的phpmyadmin示范. 进入到phpmyadmin安装目录下,这里是:C:\wamp\apps\phpmyadmin4.1.14, .创建文件夹config:拷贝.config.inc.php到,\config\config.inc.ph

Tomcat7和mysql连接池dbcp方式的配置方法和测试

一.设计测试用的数据库 1.新建数据库 create database testmysql; 2.新建一个用户信息数据表 create table test( username varchar(20) primary key, password varchar(20)); 3.给新表插入数据信息 insert into test values('keivn','123456'); 二. 设计局部数据源和连接池 1.在webapps目录中新建test目录,然后在test中分别新建WEB-INF和M

转 MySQL连接超时

在负载较重的MySQL服务器上,有时你偶尔会看到一些连接超时的错误,诸如: Can’t connect to MySQL server on ‘mydb’(110).如果当时你有多个连接请求,你会发现其它连接却没问题.这类问题开始时很不显眼,且长时间来看几乎可以忽略不计(注:次数不 多),类似于百万分之一的发生率,但是在服务器负载不断加重时,可能出现的频率将有所上升. 如果你对连接进行计时你会发现,连接一般都接近3-9秒.这个时长有时也很诡异,多年前我就曾遇到过一次,当时数据库请求连接被重置,S

(一)MySQL 连接优化

一.MySQL 连接优化 1.查看连接参数(show variables) mysql> show variables like '%connect%'; +-----------------------------------------------+-----------------+ | Variable_name | Value | +-----------------------------------------------+-----------------+ | characte

MySQL连接问题【mysql_connect和mysql_pconnect区别】

--MySQL连接问题[mysql_connect和mysql_pconnect区别] -----------------------------------------------------------转载 apache模块方式下: 区别在于当php以apache模块方式运行时, 由于apache有使用进程池, 一个httpd进程结束后会被放回进程池, 这也就使得用pconnect打开的的那个mysql连接资源不被释放, 于是有下一个连接请求时就可以被复用.  这就使得在apache并发访问

mysql连接池模块

如果不想程序在查询数据时卡死或等待过长时间,一般不推荐在node中开启一个连接后全部查询都用这个链接并且不关闭.因为node里面的mysql不像php里的那样会在完成查询后断开,只要不主动断开,连接一直存在,当连接数量达到一定数量时就会产生严重的阻塞,出现各种延时和卡死现象.在并发量较大时,可以通过建立连接池来缓解并发压力. 在node中的mysql模块里其用来操作数据的query()方法接收的参数是不同的,在使用时需要特别注意.具体模块如下: /** * mysql连接池模块 * @autho

Swoole4-swoole创建Mysql连接池

一 .什么是mysql连接池 场景:每秒同时有1000个并发,但是这个mysql同时只能处理400个连接,mysql会宕机. 解决方案:连接池,这个连接池建立了200个和mysql的连接,这1000个并发就有顺序的共享这连接池中的200个连接.这个连接池能够带来额外的性能提升,因为这个和mysql建立连接的这个过程消耗较大,使用连接池只需连接一次mysql. 连接池定义:永不断开,要求我们的这个程序是一个常驻内存的程序.数据库连接池(Connection pooling)是程序启动时建立足够的数

django 重写 mysql 连接库实现连接池

django 重写 mysql 连接库实现连接池 问题 django 项目使用 gunicorn + gevent 部署,并设置 CONN_MAX_AGE 会导致 mysql 数据库连接数飙升,在高并发模式可能会出现 too many connections 错误.该怎么解决这个问题呢?首先看下 django 源码,找到问题的根源. 本文 django 版本为 2.2.3. 问题分析 首先查看连接部分源码: # django/db/backends/mysql/base.py class Dat

[转]MySQL连接池配置详解(DBCP)

DBCP连接池介绍 ----------------------------- 目前 DBCP 有两个版本分别是 1.3 和 1.4. DBCP 1.3 版本需要运行于 JDK 1.4-1.5 ,支持 JDBC 3. DBCP 1.4 版本需要运行于 JDK 1.6 ,支持 JDBC 4. 1.3和1.4基于同一套源代码,含有所有的bug修复和新特性.因此在选择DBCP版本的时候,要看你用的是什么JDK版本. DBCP1.2版本性能一般,比c3p0差挺多.DBCP1.4和1.3,配合(依赖)co