一次优化引发的血案

前些天一个Nginx+PHP项目上线后遭遇了性能问题,于是打算练练手,因为代码并不是我亲自写的,所以决定从系统层面入手看看能否做一些粗线条的优化。

首先,我发现服务的Backlog设置过小,可以通过ss命令查询Send-Q来确认:

shell> ss -ln
Recv-Q Send-Q    Local Address:Port      Peer Address:Port
0      511                   *:80                   *:*
0      128           127.0.0.1:9000                 *:*

明显看出,Nginx的Backlog是511;PHP的Backlog是128,在高并发时易成为瓶颈。关于TCP队列的详细介绍,推荐阅读「TCP queue 的一些问题」,此外,大家有兴趣的可以关注一下在Linux中全连接半连接队列长度是如何计算的。

其次,我发现服务的进程数设置过少,Nginx的进程数好说,通过worker_processes指令控制,按照CPU个数设置就行了,如果版本够的话,可以直接设置成auto。PHP的进程数设置多少合适,并没有一个固定的答案,如果内存充足的话,我一般选择静态模式,并设置进程数为1024个,当然不能片面的以为进程数越多越好,不然调度会成问题。

关于PHP进程数的权衡,我建议大家阅读如下资料:

按照如上的分析,我在测试环境实施时,一切都非常顺利,不过在正式环境实施时,彻底被吓尿了:首先优化PHP,一切正常;接着优化Nginx,结果服务宕机,赶紧回滚了Nginx的优化,服务依然没有起死回生,恍惚间我心想难不成修改Backlog把操作系统改坏了?不能够啊!无奈放出大招:重启服务器,尼玛好了!

转瞬之间经历了莫名其妙的大悲大喜,让人缓不过神来,好在重启服务器之后一切都正常了,可以相对从容的查找问题的原因,其实错误日志里已经留下了线索:

setuid(99) failed (11: Resource temporarily unavailable)

原来出现了资源不足!确认一下到底是哪个用户:

shell> grep -w 99 /etc/passwd
nobody:x:99:99:Nobody:/:/sbin/nologin

恰好Nginx和PHP的子进程都是通过nobody用户启动的,看来问题就出在这里了,可是为什么测试环境正常,正式环境异常呢?原来差异出现在操作系统的版本上:虽然操作系统都是CentOS,但测试环境的版本是5.X,正式环境的版本是6.X,最要命的是新版的操作系统里多了一个限制用户进程数的配置文件,缺省设置是1024:

shell> cat /etc/security/limits.d/90-nproc.conf
# Default limit for number of user‘s processes to prevent
# accidental fork bombs.
# See rhbz #432903 for reasoning.

*          soft    nproc     1024

也就是说,任何用户最多只能启动1024个进程。案例中,先启动的PHP,由于进程数较多,一下子就用光了所有的资源配额,接着启动Nginx时,失败无法避免。

不过为什么重启服务器后一切看起来都正常了呢?这是启动顺序造成的:

shell> ls /etc/rc3.d/ | grep -E ‘nginx|php‘
S55nginx
S84php-fpm

也就是说,重启服务器后,Nginx先于PHP启动,由于Nginx的进程数较少,所以启动成功,接着PHP启动时,虽然还是会触发限制阈值,但大部分进程都能够启动成功,只有少部分进程启动失败,所以从表象上看,我们认为成功了。

如果这次优化引发的血案让你意犹未尽,可以继续阅读ulimit限制之nproc问题

时间: 2024-08-27 08:26:01

一次优化引发的血案的相关文章

一个无锁消息队列引发的血案:怎样做一个真正的程序员?(二)——月:自旋锁

前续 一个无锁消息队列引发的血案:怎样做一个真正的程序员?(一)——地:起因 一个无锁消息队列引发的血案:怎样做一个真正的程序员?(二)——月:自旋锁 平行时空 在复制好上面那一行我就先停下来了,算是先占了个位置,虽然我知道大概要怎么写,不过感觉还是很乱. 我突然想到,既然那么纠结,那么混乱,那么不知所措,我们不如换个视角.记得高中时看过的为数不多的长篇小说<穆斯林的葬礼>,作者是:霍达(女),故事描写了两个发生在不同时代.有着不同的内容却又交错扭结的爱情悲剧,一个是“玉”的故事,一个是“月”

一个无锁消息队列引发的血案(六)——RingQueue(中) 休眠的艺术 [续]

目录 (一)起因 (二)混合自旋锁 (三)q3.h 与 RingBuffer (四)RingQueue(上) 自旋锁 (五)RingQueue(中) 休眠的艺术 (六)RingQueue(中) 休眠的艺术 [续] 开篇 这是第五篇的后续,这部分的内容同时会更新和添加在 第五篇:RingQueue(中) 休眠的艺术 一文的末尾. 归纳 紧接上一篇的末尾,我们把 Windows 和 Linux 下的休眠策略归纳总结一下,如下图: 我们可以看到,Linux 下的 sched_yield() 虽然包括了

openstack运维实战系列(十三)之glance更改路径引发的&quot;血案&quot;

1. 背景说明 glance在openstack中负责镜像相关的服务,支持将运行的虚拟机转换为快照,镜像和快照都存储在glance中,glance的后端支持多种存储方式,包括本地的文件系统,http,glusterfs,ceph,swift等等. 默认情况下,glance采用本地文件系统的方式存储image,存储的路径为/var/lib/glance/images,随着时间的推移,当镜像越来越多的时候,根目录的空间将会越来越大,所以对于glance的路径来说,需要提前做好规划和准备,如划分一个单

一个二级菜单引发的血案

近期发现自己css不是很好,于是又看了一遍<css权威指南>.总感觉自己抓不到重点.弃疗中...于是看看其他书.然后学妹跟我说她的二级菜单写得很乱.当时我心里就在想二级菜单,有何难?自认为10分钟能搞定.跟她要效果图并很自大的说了句“等会儿,我写个简单的”.于是血案由此引发... 二级菜单要实现的原效果图是: (如发现雷同,不是巧合,是我从别的网页上截屏下来的 ~_~).既然说了简单,肯定效果没这么精美.但是至少基本效果和原理要实现. 10分钟过去了....15分钟过去了....这个“等会儿”

模板链接与前置声明引发的血案

模板链接与前置声明引发的血案 模板链接与前置声明引发的血案 现象 问题原型 模板參数类型类 使用类模板的类 分析 objdump -S TemplateLink SUPERSUBCLASS 分析 objdump -S UsingBaseo objdump -S UsingChildo 问题解答 解答问题一 解答问题二 解决方式 类型萃取辅助类 应用 不足 现象: 有一个类模板,它会依据模板类型參数T的实际类型,调用不同的实例化泛型函数子去处理实际事情. 在程序运行时.发如今不同的模块中用相同的类

一个Sqrt函数引发的血案

我们平时经常会有一些数据运算的操作,需要调用sqrt,exp,abs等函数,那么时候你有没有想过:这个些函数系统是如何实现的?就拿最常用的sqrt函数来说吧,系统怎么来实现这个经常调用的函数呢? 虽然有可能你平时没有想过这个问题,不过正所谓是"临阵磨枪,不快也光",你"眉头一皱,计上心来",这个不是太简单了嘛,用二分的方法,在一个区间中,每次拿中间数的平方来试验,如果大了,就再试左区间的中间数:如果小了,就再拿右区间的中间数来试.比如求sqrt(16)的结果,你先试

一个由内存泄漏引发的血案-Square

一个内存泄漏引发的血案-Square 原文链接 : A small leak will sink a great ship 原文作者 : Pierre-Yves Ricau 译文出自 : 开发技术前线 www.devtf.cn.未经允许,不得转载! 译者 : chaossss 校对者: 这里校对者的github用户名 状态 : 完成 在开发 LeakCanary 时我发现一处奇怪的内存泄漏,为了搞清楚到底是什么原因导致这个问题我一边 Debug,一边在邮件中和小伙伴们沟通,最后形成了这篇博文.

Replication的犄角旮旯(六)-- 一个DDL引发的血案(上)(如何近似估算DDL操作进度)

原文:Replication的犄角旮旯(六)-- 一个DDL引发的血案(上)(如何近似估算DDL操作进度) <Replication的犄角旮旯>系列导读 Replication的犄角旮旯(一)--变更订阅端表名的应用场景 Replication的犄角旮旯(二)--寻找订阅端丢失的记录 Replication的犄角旮旯(三)--聊聊@bitmap Replication的犄角旮旯(四)--关于事务复制的监控 Replication的犄角旮旯(五)--关于复制identity列 Replicati

一个多线程问题引发的血案-(代码段执行完毕,子进程未执行完毕导致段错误)

今天遇到一个问题,gdb执行程序完全没有问题,但直接执行就会段错误,百思不得其解,各种纠结,各种搜索引擎都试了一遍,无果!后来问题还是被我自己挖出来了. 看下边一段代码: int TaskSendControl() { pthread_t prov_thread[CLIENT_NUM]; int prov[CLIENT_NUM]; for(int i=0; i< CLIENT_NUM; i++) { prov[i] = i; if( pthread_create(&prov_thread[i