云计算之路-阿里云上：10:28-10:51云盾清洗以及IP切换引发的主站访问故障

大家好，非常抱歉！今天10:28-10:51期间由于阿里云云盾流量清洗，以及切换IP后负载均衡的带宽跑满，影响了主站的正常访问，给您造成了很大的麻烦，请您谅解！

故障的过程是这样的：

10:28，我们收到了来自阿里云云盾的通知短信：

【阿里云】尊敬的用户：您的 IP 遭受外部流量攻击，已启动免费清洗服务...

以前也收到过几次这样的通知短信，根据以往的经验，这样的云盾流量清洗不会影响网站的正常访问。

可是今天收到短信后，突然发现主站www.cnblogs.com不能访问了（当时我们是通过上海电信的网络访问的）。当时很着急，立即上云盾控制台查看情况，攻击流量在云盾的承受范围内，不是流量攻击造成的不能访问。怀疑问题与云盾的流量清洗有关。所以，一边联系阿里云客服，一边进行了DNS解析切换，将流量切换到了另外一台SLB（阿里云负载均衡）上。

但是在切换时，我们忘记了另外一台SLB上设置了带宽限制。开始的时候由于DNS解析没完全生效，没察觉带宽问题，等后来DNS解析逐渐生效后，由于带宽跑满造成主站访问速度慢，等我们发现后才恢复正常。（这是我们在这次处理故障过程中的疏忽，我们会认真检讨，吸取教训）

之后，原来的SLB在停止流量清洗之后，也恢复了正常。流量清洗期间的不能访问可能是云盾清洗期间误屏蔽了一些地区的IP，这个有待阿里云的进一步分析。

在这次故障中，我们深刻体会到在面对紧急问题时保持沉着冷静的心态是多么重要，否则很容易在处理现有问题过程中制造出新的问题。

时间： 2024-10-09 23:56:34

云计算之路-阿里云上：10:28-10:51云盾清洗以及IP切换引发的主站访问故障

云计算之路-阿里云上：10:28-10:51云盾清洗以及IP切换引发的主站访问故障的相关文章

云计算之路-阿里云上：Wireshark抓包分析一个耗时20秒的请求

云计算之路-阿里云上：超过70秒的请求抓包分析

云计算之路-阿里云上：对“黑色n秒”问题的最终猜想——CPU C-states引起的

云计算之路-阿里云上：什么是“黑色1秒”？

云计算之路-阿里云上：消灭“黑色n秒”第二招——给w3wp进程指定CPU核

云计算之路-阿里云上：“黑色1秒”问题与2009年Xen一个补丁的故事

云计算之路-阿里云上：神奇的“黑色30秒”再次出现，究竟是谁的错？

云计算之路-阿里云上：因为网络问题，物理机换回虚拟机

云计算之路-阿里云上：原来“黑色0.1秒”发生在socket读取数据时