世界在日常生活的各个方面都依赖于数据中心。为了满足持续增长且看不到尽头的空前高水平需求,大多数组织都无法接受停机时间。停机成本正在上升,40% 的企业报告说,仅一小时的停机时间就可能造成 100 万至 500 万美元的损失,这还不包括其他相关费用。大公司报告说,在高峰工作时间中断每分钟可能造成近 100 万美元的损失。为了减轻此类财务挫折的风险,数据中心部署了其关键基础设施的冗余组件。
什么是数据中心冗余?
数据中心冗余是一种用于解决停机问题的系统,其中在基础设施设计中包含额外的组件,使操作能够在设备故障、公用事业故障或计划维护的情况下恢复。
为什么数据中心冗余很重要?
数据中心冗余对于日常运营至关重要,因为它提供了弹性并有助于维持正常运行时间。
即使有一定程度的冗余,也可能会发生计划外停机。停机造成的损害可能包括:
- 收入损失。仅在线运营的公司依赖于一致的正常运行时间。如果发生停机,客户将无法购买或使用服务,从而导致公司收入损失。
- 品牌美誉度。如果客户在您的组织中不断遇到用户困难和停机时间,他们将开始将您的品牌与糟糕的服务联系起来。让您的客户的购买过程和您的服务尽可能简单与正常运行时间和冗余直接相关。
- 生产力下降。如果公司没有为停机时间做好准备并且没有投资于冗余基础设施,则生产力会在停机期间停止。长时间的停机会产生严重的后果,并会影响通信、设备和员工效率。
- 支出。一些组织在 SLA 合同中包含了声明在发生计划外停机时需要赔偿的语言。这对于使用托管数据中心的公司来说非常普遍,并且这些提供商同意严格的 SLA,以保证为其客户提供最短的停机时间。
- 丢失数据。在停机期间,数据可能不受保护,并且可能存在破坏或窃取数据的网络攻击机会。
数据中心冗余是一项重要的措施,因为避免它和经历停机是昂贵的。停机一小时的平均成本从 140,000 美元到 540,000 美元不等,公司应该考虑在为时已晚之前确保冗余。通过建立冗余,您的设施可以更快地恢复,确保更可靠的操作。故障和故障发生的频率可能比您想象的要高,积极主动会带来回报。
例如,如果 PDU 发生故障,您将如何继续为其供电的设备运行?您是否为故障转移安装了冗余设备,还是必须等到问题得到解决?在不严重影响您的组织的情况下,您可以承受多少停机时间?这些都是在问自己对裁员的投资是否值得时要考虑的问题。
数据中心的哪些关键组件需要冗余?
最建议具有冗余的基础设施部分是:
- 力量。冗余机架 PDU、RPP/落地式 PDU、UPS 和发电机可确保 IT 设备在电源链的一侧出现故障时仍然有电。市电也可以在双馈电或双变电站中提供,以防止市电故障。
- 冷却。备用空调系统、HVAC、泵和冷却器可使数据中心保持凉爽,并在冷却设备出现故障时安全运行。
- 网络。交换机、路由器和防火墙等冗余硬件可以确保在网络流量急剧上升或 DDoS 攻击时正常运行。
- 贮存。应使用备份硬盘驱动器、磁带驱动器、内部和外部存储以及管理软件来保护有价值的数据。
如何衡量数据中心冗余?
根据组织的正常运行时间要求、设施的规模和基础设施的承受能力,可以使用不同的架构设计和冗余级别。虽然拥有完全冗余的数据中心在某些情况下可能很有价值,但在其他情况下却极其昂贵且效率低下。
为了衡量数据中心的冗余度,字母 N 被认为是衡量单位。N 表示设施以 100% 容量运行所需的特定设备的实例数。N 本身不提供任何冗余。为了实现冗余,数据中心管理人员从添加到 N 的各种模型中进行选择。
数据中心冗余的级别是:
- N+1。N+1 是一种简单的冗余设计,因为它包含 N 代表特定组件的任何数字加上一个额外的数字。这个额外的设备是可以添加到 N 设计中的最低级别的冗余,因为它只提供一个额外的资源。N+1 是公认的设计标准,通常建议为需要的四个设备增加一个设备。2018 年,Uptime Institute 报告称,约51% 的运营商受访者拥有 N+1 冷却设备设计,41% 拥有 N+1 电源设备配置。
- N+2。N+1 模型很有用,但有时需要更多冗余。在这种情况下,设施可能会采用 N+2 设计,即在基线上部署两个额外的设备单元。N+2 冗余设计比其他复杂设计更具成本效益。
- 2N。2N 数据中心架构设计产生了一个完全冗余的设施,具有主要基础设施和备份设备的镜像系统。使用此模型,如果整个系统崩溃,将有一组额外的基础架构能够继续运行并支持全部 IT 负载。这可以帮助数据中心大大降低停机风险,但成本高昂且难以部署。
- 2(N+1)。对于需要最高级别冗余和容错计划的数据中心,有一个 2(N+1) 架构设计。此设计是 2N 和 N+1 系统的组合。这是部署成本最高的计划,但实际上是防故障的,因为它可以支持多个故障,并且在整个主系统出现故障的情况下仍然提供 N+1 冗余。这种模式可能适用于无法承受丝毫中断或任何停机的可能性的公司。然而,冗余设计并不是万能的,数据中心经理在选择合适的冗余度之前应该考虑安装、财务成本和维护保养。
- 3N/2。三对二冗余模型提供与 2N 几乎相同的可靠性,并且仅绞合约 50% 的容量,使成本更接近 N+1 系统。这种模型非常复杂,因为它需要三个不同的 UPS 系统,其中每个单独的系统都可以备份一个单独的系统,并且带来额外的管理挑战。
冗余如何影响数据中心层级?
数据中心的冗余量直接关系到Uptime Institute 在其认证过程中授予的数据中心层级。有四个具有特定标准的标准化层,特别是每年允许多少停机时间和冗余级别。根据您的业务需求和预算,其中一层将最适合您。
一级数据中心通常最适合预算较低的小型企业。这些组织可能没有大量的流量和数据存储需求,并且可以比其他层级承受更多的停机时间。在这种情况下,数据中心不需要冗余。
对于中小型企业,效率和冗余需求略有提高,使第 2 层非常适合。第2 层数据中心包括部分冗余,例如 N+1 模型,但仍以比其他更高层更低的成本运行。
通过Tier 3认证的大型数据中心还需要至少内置一个 N+1 冗余系统。这一级别的风险更高,组织必须能够在不关闭或中断操作的情况下对设备进行维护,使冗余成为必要性。
最高级别的认证是Tier 4 数据中心。此层级适用于在任何时候都无法承受最短停机时间的企业级企业和政府实体。对于需要几乎 100% 正常运行时间的公司,完全容错的冗余系统(如 2N 或 2(N+1) 设计)是有益的。
并非每个层级和级别的冗余都适合每个组织。重要的是要了解您的业务需要多少正常运行时间以及您可以在数据中心容量上花费多少。如果您是中小型企业,2N 模型过于复杂且昂贵。投资于不需要的备用设备只会占用空间并增加维护成本。另一方面,大型组织需要确保他们获得足够的冗余。N+1 设计不适合需要最高正常运行时间的公司。在选择您的设施需要多少冗余时,请务必考虑您组织的预算、正常运行时间要求、业务目标和风险承受能力。
使用 DCIM 软件确保冗余的 3 种方法
当您拥有合适的工具时,确保数据中心冗余和保持正常运行时间会很容易。数据中心基础设施管理 (DCIM) 解决方案是记录冗余和提高数据中心正常运行时间的行之有效的方法。
DCIM 软件帮助确保冗余的三种方式包括:
- 故障转移模拟。故障转移是指主系统出现故障,辅助系统自动接管。借助 DCIM 软件,您可以在数据中心模拟故障转移,以确定在故障转移场景中哪些机架和设备存在风险。然后,您可以主动采取措施确保这些机架具有冗余电源。
- 电源电路走线图。通过电路轨迹图和 3D 可视化,您可以看到从设备电源一直到地板 PDU 的多个冗余电源电路中的每个节点和连接。
- 健康投票。确保您的设备正常运行并且您可以通过网络轻松访问它非常重要。DCIM 软件允许对您的智能 PDU和其他计量设备进行高质量的健康监测。如果设备出现故障,您将立即收到警报,以便您可以在出现更大问题之前快速做出反应并恢复服务。
此外,通过使用 DCIM 软件降低停机的可能性和严重程度,您甚至可能会发现您需要的冗余更少,从而可以降低成本。