一次优化引发的血案

前些天一个Nginx+PHP项目上线后遭遇了性能问题，于是打算练练手，因为代码并不是我亲自写的，所以决定从系统层面入手看看能否做一些粗线条的优化。

首先，我发现服务的Backlog设置过小，可以通过ss命令查询Send-Q来确认：

shell> ss -ln
Recv-Q Send-Q    Local Address:Port      Peer Address:Port
0      511                   *:80                   *:*
0      128           127.0.0.1:9000                 *:*

明显看出，Nginx的Backlog是511；PHP的Backlog是128，在高并发时易成为瓶颈。关于TCP队列的详细介绍，推荐阅读「TCP queue 的一些问题」，此外，大家有兴趣的可以关注一下在Linux中全连接和半连接队列长度是如何计算的。

其次，我发现服务的进程数设置过少，Nginx的进程数好说，通过worker_processes指令控制，按照CPU个数设置就行了，如果版本够的话，可以直接设置成auto。PHP的进程数设置多少合适，并没有一个固定的答案，如果内存充足的话，我一般选择静态模式，并设置进程数为1024个，当然不能片面的以为进程数越多越好，不然调度会成问题。

关于PHP进程数的权衡，我建议大家阅读如下资料：

按照如上的分析，我在测试环境实施时，一切都非常顺利，不过在正式环境实施时，彻底被吓尿了：首先优化PHP，一切正常；接着优化Nginx，结果服务宕机，赶紧回滚了Nginx的优化，服务依然没有起死回生，恍惚间我心想难不成修改Backlog把操作系统改坏了？不能够啊！无奈放出大招：重启服务器，尼玛好了！

转瞬之间经历了莫名其妙的大悲大喜，让人缓不过神来，好在重启服务器之后一切都正常了，可以相对从容的查找问题的原因，其实错误日志里已经留下了线索：

setuid(99) failed (11: Resource temporarily unavailable)

原来出现了资源不足！确认一下到底是哪个用户：

shell> grep -w 99 /etc/passwd
nobody:x:99:99:Nobody:/:/sbin/nologin

恰好Nginx和PHP的子进程都是通过nobody用户启动的，看来问题就出在这里了，可是为什么测试环境正常，正式环境异常呢？原来差异出现在操作系统的版本上：虽然操作系统都是CentOS，但测试环境的版本是5.X，正式环境的版本是6.X，最要命的是新版的操作系统里多了一个限制用户进程数的配置文件，缺省设置是1024：

shell> cat /etc/security/limits.d/90-nproc.conf
# Default limit for number of user‘s processes to prevent
# accidental fork bombs.
# See rhbz #432903 for reasoning.

*          soft    nproc     1024

也就是说，任何用户最多只能启动1024个进程。案例中，先启动的PHP，由于进程数较多，一下子就用光了所有的资源配额，接着启动Nginx时，失败无法避免。

不过为什么重启服务器后一切看起来都正常了呢？这是启动顺序造成的：

shell> ls /etc/rc3.d/ | grep -E ‘nginx|php‘
S55nginx
S84php-fpm

也就是说，重启服务器后，Nginx先于PHP启动，由于Nginx的进程数较少，所以启动成功，接着PHP启动时，虽然还是会触发限制阈值，但大部分进程都能够启动成功，只有少部分进程启动失败，所以从表象上看，我们认为成功了。

如果这次优化引发的血案让你意犹未尽，可以继续阅读ulimit限制之nproc问题。

时间： 2025-01-02 19:19:38

一次优化引发的血案

一次优化引发的血案的相关文章

一个无锁消息队列引发的血案：怎样做一个真正的程序员？（二）——月：自旋锁

一个无锁消息队列引发的血案（六）——RingQueue(中) 休眠的艺术 [续]

openstack运维实战系列(十三)之glance更改路径引发的"血案"

一个二级菜单引发的血案

模板链接与前置声明引发的血案

一个Sqrt函数引发的血案

一个由内存泄漏引发的血案-Square

Replication的犄角旮旯（六）-- 一个DDL引发的血案(上)（如何近似估算DDL操作进度）

一个多线程问题引发的血案-（代码段执行完毕，子进程未执行完毕导致段错误）