使用数据中心基础设施管理(DCIM)软件提高正常运行时间所遵循的最佳实践

数据中心中断的成本可能 是惊人的,数据中心专业人士报告说,大规模中断的成本越来越高。最近的一项调查发现,2020 年 16% 的停电造成的损失超过 100 万美元,高于 2019 年的 10%。40% 的停电造成的损失在 10 万至 100 万美元之间,高于 2019 年的 28%。

使用数据中心基础设施管理(DCIM)软件提高正常运行时间所遵循的最佳实践-南华中天

不仅停机成本在增加,而且可预防的停机次数也在增加。2019 年,60% 的停机事件被认为是可以预防的,到 2020 年,这一数字上升到 75%。电力和冷却问题是 50% 停电的原​​因。

遵循最佳数据中心实践

数据中心经理需要遵循最佳实践来减少这些可预防事件造成的停机时间。

以下是成功的数据中心经理使用数据中心基础设施管理 (DCIM) 软件提高正常运行时间所遵循的 10 大最佳实践:

  1. 利用计量设备的运行状况轮询。 通过运行状况轮询确保智能机架 PDU和其他计量设备正在运行并可通过您的网络访问,这样您就可以第一个知道您是否失去了对设备的监控或停电。运行状况轮询使您能够立即收到有关设备已关闭的警报,以便您可以快速做出反应并在出现问题之前恢复服务。
  2. 设置和监控阈值。 最佳做法是监控和接收智能 PDU 和其他计量设备的陷阱。然后,对您收集的数据设置警告和临界阈值,以便轻松了解您的设备状态。使用企业健康仪表板,通过易于理解的红-黄-绿颜色编码,一目了然地查看阈值违规情况。如果您有违规行为,请使用您的仪表板向下钻取并查看导致这些警告或严重情况的确切警报。
  3. 使用趋势图查看随时间的变化。 趋势图非常有用,因为即使您还没有违反阈值,您仍然可以看到功率或温度读数是否随时间增加。这使您能够在发生阈值违规和潜在事件之前主动做出反应。将您的图表以每周自动报告的形式发送给您的管理层,让他们了解数据中心发生的事情。
  4. 遵循 ASHRAE 指南和湿度冷却图表。 通过冷却图表确保您的设备符合ASHRAE对温度和湿度的建议,使您能够在一个视图中查看大量传感器。然后,您可以立即识别哪些设备在推荐范围之外运行,并采取相应措施以维持正常运行时间。
  5. 使用热图延时视频可视化温度传感器读数。 将您的环境传感器数据转换为带有延时视频的水平或垂直热图,以在热点损坏设备之前快速识别和消除热点。
  6. 监控机柜容量和冗余度。 创建一份每日报告,突出显示容量低且危险地接近冗余要求之外的机架。
  7. 使用仪表板可以一目了然地查看运行状况、电源和冷却情况。 远程数据中心管理仪表板非常有助于将数据转化为易于共享的可操作信息,并支持数据驱动的协作。您应该监控的必备 KPI包括每个机柜的峰值功率负载、剩余电源容量天数、机柜电源故障转移冗余、电源链断路器利用率、每个机柜的最新温度、每个机柜的 delta-T 和每个机柜的最高温度。
  8. 监控每个断路器的容量。 使用自动跟踪每个断路器连接处的功率的数据中心管理软件,以确保不超过额定值。通过入口或出口仪表的实时读数,该软件将防止您施加超过断路器限制的负载。
  9. 三相负载平衡。 不平衡的电源会导致断路器过早跳闸和高压,从而缩短设备的使用寿命。设置三相电源的阈值以在设备违规时接收警报。然后,根据此信息采取行动以保持所有阶段的平衡并保持正常运行时间。
  10. 模拟故障转移并测试假设情景。 不要等到为时已晚才发现发生故障时会发生什么。使用 DCIM 软件模拟故障转移并确保 IT 设备始终可用。您还可以使用确定可用容量的报告来测试假设场景,以在发生故障时提供覆盖范围。

使用数据中心基础设施管理(DCIM)软件提高正常运行时间所遵循的最佳实践-南华中天

不要等待数据中心中断发生

防止中断的价值是巨大的。最好的数据中心经理认识到这一点,并遵循这些最佳实践来保持正常运行时间。以他们为榜样,利用完整的 DCIM 解决方案,实现一流的监控和报告功能,您可能会为您的组织节省数百万美元。