云计算之路-阿里云上：服务器CPU 100%问题是memcached连接数限制引起的

非常抱歉，昨天的服务器CPU 100%问题是达到 memcached 的连接数限制引起的，不是阿里云服务器的问题。

之前我们用的是阿里云“云数据库 memcached 版”，上个周末我们换成了自己搭建——基于阿里云“内存网络增强型”服务器用 docker 跑 memcached 。

docker run -d --net=host --restart unless-stopped memcached -m 15360

但我们在部署 memcached 时没有设置 conn-limit 参数（默认值是 1024）。

由于周一周二两天服务器没出现问题，而且周二的访问量超过了上周的最高，我们误以为这次 memcached 的部署调整没问题。而没问题的背后是因为周一周二的web服务器数量比昨天少，刚好没达到 memcached 的连接数限制。

昨天（周三）我们收到 1 台服务器的 CPU 报警后，多加了 1 台服务器，刚好让 memcached 的连接数达到了临界值，在下午并发连接数上去后，很容易触发 memcached 的连接限制，web 服务器因无法使用缓存而让 CPU 不堪重负。在这样的情况下，减服务器反而是有利的，而我们慌乱之下依照 CPU 负载高就加服务器的错误直觉操作则是雪上加霜。。。

当今天上午再次有服务器出现 CPU 100% 问题时，我们才想到 memcached 的连接数限制

STAT max_connections 1024
STAT curr_connections 960

赶紧将 max_connections 由默认的 1024 修改为 2048

docker run -d --net=host --restart unless-stopped memcached -m 15360 -c 2048 && docker stop 51bd3b240ede

之后 CPU 100% 的问题就解决了

STAT max_connections 2048
STAT curr_connections 1232

非常抱歉，由于我们在处理故障时不够冷静、考虑不周，给您带来了麻烦，请您谅解。

我们会吸取教训，提高我们在处理故障时的判断与定位能力。

原文地址：https://www.cnblogs.com/cmt/p/8572862.html

时间： 2024-10-12 07:31:39

云计算之路-阿里云上：服务器CPU 100%问题是memcached连接数限制引起的

云计算之路-阿里云上：服务器CPU 100%问题是memcached连接数限制引起的的相关文章

云计算之路-阿里云上：CPU 100%引发的状况

云计算之路-阿里云上：对“黑色n秒”问题的最终猜想——CPU C-states引起的

云计算之路-阿里云上：消灭“黑色n秒”第二招——给w3wp进程指定CPU核

云计算之路-阿里云上：奇怪的CPU 100%问题

云计算之路-阿里云上：消灭“黑色n秒”第一招——不让CPU空闲

云计算之路-阿里云上：消灭“黑色n秒”第三招——禁用网卡的TCP/IP Offload

云计算之路-阿里云上：因为网络问题，物理机换回虚拟机

云计算之路-阿里云上-容器难容：容器服务故障以及自建 docker swarm 集群故障

云计算之路-阿里云上：排查“黑色30秒”问题-为什么请求会排队

云计算之路-阿里云上：Wireshark抓包分析一个耗时20秒的请求