2010.3.25日,据国外媒体报道,由于欧洲数据中心过热以及应急措施失效,导致维基百科周三出现大范围宕机。
2017.3.31日,数据中心冷却设备故障导致IT设备过热,,一些资源自动关闭,以确保数据的完整性和弹性,微软在日本的Azure Cloud服务中断,造成了大面积的损失。
冷却故障导致的数据中心中断是比较常见的,其造成的损失并不比电气基础设施故障导致的中断小,有时候还会造成更大的IT设备损毁的结果,所以数据中心的连续冷却是关乎数据中心安全可靠的重大问题。
数据机房要求有一个安全、可靠运行的空调系统来保证机房内所有计算机及其配套设备的正常运作。在数据中心的大型空调水系统中,为了达到连续制冷的功能,采用的连续制冷措施主要是水蓄冷技术。在Uptime 对于TierIV等级的数据中心要求里,明确要求了连续制冷功能;在其他规范和标准里面,对于这个功能没有明确而具体的要求。对于要求低于TierIV级别的数据中心项目,Uptime没有连续制冷的要求,而实际的工程项目中,国内市电电价相对柴发更加廉价,所以,平时运行中多以市电为主,业主为了保证系统设备任何计划性的动作而不会导致机房设备的任何服务中断,需要设置蓄冷罐来提供市电切换为柴电过程中的IT机房冷负荷,保证电源切换过程中的系统安全,这是为了数据中心安全运行的常用做法。
当市电紧急停电故障状况时,在切入柴电并使所有系统稳定运行之前,蓄冷罐供冷要保证稳定运行的时间需要考虑以下两方面:
(1) 当市电紧急停电故障状况时,为系统设置的柴油发电机组可以紧急启动提供备用电源,从柴油发电机组启动及并机切入系统稳定供电的过程所需时间约为3min。
(2) 冷水机组在正常供冷过程中遇到停电故障时会进入故障保护状态,在电力供应恢复后,如果冷机为定频冷机,为了避免冷机同时启动时带来的电流冲击,需要冷机运行电流稳定后再加载其他冷机,而定频冷机启动需要3~5分钟左右,且只能逐台启动,如果冷机台数多的时候,启动时间会非常久,如果正常运行冷机台数为三台,则需要9~15分钟才能全部满负荷投入运行。所以数据中心机房一般不采用定频冷机。如果冷机为变频冷机,虽然启动电流不会对变压器产生冲击,但是从系统安全角度考虑,一般会给冷机启动一定的时间间隙,这个间隙一般为10s左右,而变频冷机单台启动时间为45s~5min,当逐台启动时,如果正常运行冷机台数为三台,则需要2~5分钟就能全部满负荷投入运行。
定频冷机启动时间的启动顺序示意图:
变频冷机启动时间的启动顺序示意图:
柴发供电并切入系统稳定供电与冷机全部投入稳定运行的两者时间之和,如果采用定频冷机,最大总时间为3+15=18分钟;如果采用变频冷机,最大总时间为3+1/6*3+5=8.5分钟。
而数据中心蓄冷罐的蓄冷时间,一般设定为10~20分钟系统冷负荷,常用的取值为15分钟,这个数值是可以根据现实需要作出微调的。
蓄冷罐容量的选取,不仅与蓄冷时间有关,还与蓄冷罐所蓄冷量负责哪部分负荷有关系。数据中心的负荷一般分为关键负载负荷和其他负荷。关键负载负荷仅与IT机房设备发热量直接相关,一般占总冷负荷的60%~70%左右。蓄冷罐在选择计算时可以考虑全部负荷,也可以只考虑关键负载负荷,以数据中心安全需求而定。常规做法是满足以全部负荷在线运行15分钟所需冷量的蓄冷需求。
原文地址:https://blog.51cto.com/14514357/2432801