技术问答

数据中心停!电!!到底有多恐怖?

2018-12-04
0
 
数据中心,停!电!了!数据中心停!电!!到底有多恐怖?
 
几乎每个数据中心行业内的人听到这几个字眼都会毛骨悚然!
 
作为数据中心行业,停电带来的影响难以估量,不仅在财务方面损失甚重,而且还会影响企业在行业内的信誉和形象。
 
还记得2017年5月27日CBRE数据中心的停电事故吗?虽然已经过去18个月之久,但是现在想起来仍然惶恐。因为CBRE数据中心停电事故的发生,英国航空公司的预订、办理登机手续系统、呼叫中心和移动应用程序受影响而无法使用,导致英国航空公司672个航班被取消,75000名乘客的航班被取消或延迟,预计损失超过1亿英镑。
 
英国航空公司拥有Boadicea House和Comet House两个数据中心,在停电事故中,Boadicea House首先受到影响,而作为备份数据中心的Boadicea House在事故中并没有发挥作用,因此事故一直持续了三天时间。
 
事后,经英国航空公司调查,此次事故并不是因为网络攻击而是由于承包商意外封锁数据中心电源造成的。
 
除了英国航空公司停电事故之外,国外还有许多类似的情况,例如,美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失;美国“超级碗”赛场断电,耽误赛事日程等。
 
然而,数据中心运营商所面临的困难是确定停电的根本原因,因为电力中断的原因比较复杂,例如,服务器负载过重,导致系统崩溃;当地电力供应商的供应问题,工作人员误操作的人为因素等。
 
为了确保数据中心停电事故再次发生,数据中心运营商应该关注的最重要的问题:
 
1、可以随着快速发展的电力系统迁移吗?
 
数据中心在不同发展阶段,对电力需求也在变化。因此,能够分析数据中心一段时间内对电力的需求是非常重要的,以便更容易地进行长期预测。
 
2、电源链是否受到威胁?
 
越来越多的数据中心连接到网络,除了机架中包含的终端和访问点之外,很多渠道可能会成为破坏网路犯罪行为的破坏途径。
 
此外,网络违规行为甚至不需要通过电线和电缆来实施。狡猾的犯罪分子可能会进入某个数据中心,破坏内部的电力供应。但是,不仅仅是外部的恶意人员所造成的危害,也要警惕数据中心内部工作人员的行为。有些知识和经验不足的工作人员在与接口进行交互的过程中犯错,也会造成不可估量的伤害。
 
为了防止出现这种情况,运维文档和流程控制至关重要。采用更多的硬件不是防止灾难性停电的最佳选择,事实上,添加额外的硬件实际上可能使控制情况更加糟糕。
 
3、灾难恢复计划是什么?记录文档了吗?
 
在不影响业务环境的情况下进行断电测试,实际上是采用虚拟开关设备,这将允许数据中心运营商可以应对最坏的情况,并实施恢复服务。
 
数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?
 
电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。
 
4、可以实时监控操作吗?
 
数据中心运营商必须知道哪些设备现在在哪里,使用了多少电能。对于不断增加基础架构的数据中心来说,这往往会很困难,因为这可能会对电源容量和电源分配产生巨大的影响。
 
注意所有移动部件的唯一有效方法是单一视图。这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。
 
5、知道所有互连设备和系统的一切情况吗?
 
对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。
 
可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以最高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。
 
部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。
 
由于数据中心停电的原因很多,尝试用人工方法和电子表格来跟上基础设施的所有变化是费力的,并引起不可预见的风险。因此,必须采取适当可行的方法和措施进行管理。
部分文章来源与网络,若有侵权请联系站长删除!

推荐产品