减少计算机系统停机时间应该是每家公司的头等大事,因为您的服务出现故障将产生毁灭性的财务成本 - 失去业务或支付 SLA - 并且还会破坏您的声誉。了解冗余和弹性之间的区别并使用托管数据中心是明智之举,并且可以成为保护您的系统免受意外停机的极具成本效益的安全网。
弹性和冗余通常可以互换使用,但不了解它们的区别意味着很难就如何保护系统做出重要决定。您的 IT 是您公司的生命线,如果不保护它会破坏您业务的每一个元素,因此准确了解正在实施的内容非常重要。
定义了冗余和弹性
冗余——指当主要设备或基础设施出现故障时数据中心必须接管的备份设备级别。
弹性——指数据中心在出现设备故障或其他任何干扰正常运行的情况下继续运行的能力。
冗余和弹性是相似的,都处理同一个主题,但它们之间的关键区别在于冗余是关于特定设备的容量,而弹性是关于整个数据中心能够继续运行。
使讨论更加复杂的是,数据中心的冗余越多,它们的弹性就越大。尽管如此,还有其他因素有助于提高弹性,例如每天 24 小时在现场配备工作人员并从一开始就防止设备故障。
与数据中心运营商交谈时,请确保他们解释其弹性声明背后的原因。如果他们声称具有高度弹性而没有解释他们的裁员,你应该怀疑。如果您想切入正题,在考虑数据中心时,请直接查看它们与某些设备的冗余水平,这将以 N 为单位表示。
冗余表示为 N
N –是一个计量单位,它是保持数据中心运行所需的冗余设备数量。例如,如果一个数据中心可以依靠一台发电机运行,那么一台发电机就是一台 N。关于冗余和 N 要记住的是,对于每个数据中心,N 将是不同的值,因为它始终与数据中心的要求成正比。
N 的一些常见示例包括:
N = 保持数据中心运行所需的最少设备
N+1 = 保持数据中心运行所需的设备和一台额外的设备
2N = 保持数据中心运行所需的最低设备数量翻倍
N 越高,数据中心的弹性就越大,因为它会增加在数据中心开始限制其运营之前可能发生故障的设备数量。
确保您所说的任何数据中心都为您提供了它们在满负荷时的冗余 N 值,而不是它们当时的容量。否则,您可能会在被告知他们将提供 2N 冗余的合同时签订合同,但一年后——当数据中心中有更多服务器时——他们实际上提供的冗余比这要少。
数据中心内的冗余和弹性示例
数据中心的不同元素需要不同的冗余设备,但所有这些冗余都需要到位,以使数据中心具有可接受的弹性水平。所有这些冗余应满足的最小值为 N。
1. 电源
主电源故障是计算机系统发生故障的最常见原因之一,因此适当的电源冗余对于数据中心来说是绝对必要的。电源冗余有两个要素:UPS(不间断电源)用于在主电源出现故障时保持所有服务器供电,以及发电机在主电源恢复之前提供无限供电。
UPS 实际上是大型电池,主电源被馈送到数据中心,因此当出现电源故障时,电池会耗尽,保持一切供电,直到可以打开发电机。除了 N 之外,了解数据中心的 UPS 能够为服务器供电多长时间以及数据中心在现场保留多少发电机燃料也很重要。
2. 冷却
无论数据中心采用何种冷却方法——无论是空调机组、冷却塔,还是浸没式冷却——它们的冷却冗余仍然可以用 N 表示,这将使您了解其冷却的弹性。影响他们恢复能力的另一个重要因素是数据中心的冷却系统出现问题的频率,如果他们经常依赖冗余,那么这是一个危险信号。
3. 连接性
一个数据中心应该铺设多条线路将它们连接到互联网,实现大于 N 的冗余分数。要真正实现良好的弹性水平,这些线路应该在地理上是多样化的,这样如果其中一个损坏了,另一个就不会了。不会受到影响,因为它位于不同的位置。
权衡不同数据中心的冗余和弹性
您需要权衡的最终因素是整个数据中心的弹性。冗余是弹性的最大贡献者,但请记住,一个领域的冗余不会提供所有弹性。例如:如果冷却系统出现故障,备用发电机将无法保护您的服务器免于过热。您需要准确计算出如何比较不同数据中心的优点,但请记住不要被令人印象深刻的探测设备所蒙蔽,因为最大的正常运行时间是唯一重要的事情。