了解7个高效网络和系统管理员的习惯

网络和系统管理员是任何 IT 组织的骨干。它们为所有 IT 资源(无论是网络、SD-WAN、服务器、应用程序还是虚拟和云资源)提供关键监控和支持。在与数百名网络和系统管理员合作后,我们确定了最有效的 7 个关键习惯。

了解7个高效网络和系统管理员的习惯-南华中天

1. 避免数据泛滥

典型的网络或系统管理员每天会收到多达 200 个警报。其中多达 80% 可以在正常工作时间内触发。这意味着在 10-12 小时的工作日内平均需要对 160 个警报进行分类。这大约每 5 分钟发出 1 个警报!

这些警报中的大多数要么是冗余的,要么是较低优先级的,并且可以很容易地进行分类。但是,对它们进行分类仍然需要时间和人工。分类冗余和低优先级警报的任务不仅繁重,而且对网络管理员的工作也有不利影响。

  • 大量的警报和通知挤占了网络管理员必须执行的最重要任务。这反过来又会导致响应时间变慢、错过最后期限和客户不满意。
  • 网络或系统管理员的工作质量受到影响。
  • 他们的生活质量受到的影响更大。

最有效的网络和系统管理员已经意识到,为了让他们的团队变得高效和有用,他们必须直面这个问题。他们的解决方案:

  • 减少警报(有关减少警报的有用建议,请参阅此博客文章:对网络和系统管理的Oxymoron攻击)。
  • 自动分类剩余警报。换句话说,盘点一周左右收到的所有警报,然后在您的监控/警报平台中建立业务规则,使冗余和低优先级的警报静音。

2. 部署单一窗格的玻璃仪表板

在任何给定时间,网络或系统管理员必须监控至少 10 到 12 种不同类型的资源。正如我们上面提到的,这些包括网络、SD-WAN、服务器工作负载、应用程序以及虚拟化和云资源。最重要的是,每个资源都有自己的工具。例如,网络使用 Zabbix 和 Xymon 等网络管理系统,虚拟化服务器工作负载使用 vCenter 等工具,应用程序使用 APM(New Relic 和 AppDynamics),以及 Meraki 等云资源对其硬件有自己的独立视图。

了解7个高效网络和系统管理员的习惯-南华中天

每个工具都有自己的仪表板。许多人声称提供“单一窗格”(SPOG)视图。但是,并非所有人都符合要求。理想情况下,单块玻璃应展示以下三个特征:

  1. 被监控元素的清晰和明确的状态。
  2. 快速轻松地深入了解问题状况。
  3. 最低限度甚至没有“照顾和喂养”要求。

例如,这里是一个真正的 SPOG 应该能够产生的示例屏幕截图。只有少数工具可以声称是真正的 SPOG。该领域流行的产品包括 IBM Tivoli、EMC Smarts 和OmniCenter。(我们目前正在撰写一篇方便的博客文章,以帮助您确定您的 SPOG 是否真的是 SPOG。所以请在不久的将来注意这一点。)

3.自动化可重复的任务

询问任何网络或系统管理员他们大部分时间是如何度过的,您会得到的最常见答案是:灭火。

这些人也承认,最紧迫的问题归结为三件事:

  1. 大量冗余警报。
  2. 大量的新资源需要管理。
  3. 人为错误。

我们已经解决了上面的冗余警报问题。对于剩下的两个,自动化是关键。最有效的网络和系统管理员会毫不留情地将所有他们可以做的任务自动化。然而,在他们开始之前,他们需要弄清楚两个基本的事情:

  • 要自动化什么?
  • 如何实现自动化?

令人惊讶的是,确定要自动化什么几乎和如何做一样复杂。那么,最有效的网络和系统管理员如何构建他们的自动化优先列表?嗯,首先要了解他们的日常活动可以分为四大类:

  • 重要且紧急的任务——您会发现这些项目在所有网络和系统管理员的日常生活中都很常见,例如响应警报。
  • 不重要,但紧急任务——到目前为止,这里最常见的活动是处理来自网络和系统管理员负责的无数设备和应用程序的冗余和误报警报。
  • 重要但不紧急的任务——在这个类别中的项目不是“放弃一切”任务,但在大多数情况下,网络和系统管理员最有资格处理的事情;例如容量规划、新工具的部署和升级、为管理决策支持生成报告以及管理基础架构
  • 不重要且不紧急的任务——列表中的最后一项是通常属于网络或系统管理员权限范围内的活动,但当其他与基础设施相关的火灾发生时,它们会被推到优先级列表中。此处的示例包括跟踪设备元数据(例如序列号)和支持合同状态,以及补丁管理和新设备供应。

了解7个高效网络和系统管理员的习惯-南华中天

4. 使用模板

今天,每分钟都有新资源上线。为确保它们符合您的信息系统政策,所有资源应:

  • 配置方式相同。
  • 遵循相同的监控规则。
  • 统一通知利益相关方。
  • 使用一致的阈值和条件发出警报。
  • 以同质的方式报告。

最有效的网络和系统管理员认识到这些指令的重要性并部署基于模板的解决方案来解决它们。一个很好的例子是监视 Microsoft SQL 服务器上的内存使用情况。众所周知,MS SQL 系统将使用分配给它们的所有内存。因此,您需要一个适用于 SQL Server 基础架构的不同模板,而不是运行中间件应用程序的 MS Windows 服务器。您的 SQL 服务器具有其他地方没有的特殊操作参数。

模板化并不容易。您必须了解每个模板化资源/工作流程的模式。您还必须将您的公司政策和期望构建到开发的模板中。最后,所有模板都必须自动进行版本控制、保存和备份。

5. 加速根本原因分析

如果您已经在使用到目前为止列出的技术,那么您很可能已经消除了 50-60% 的潜在问题。您也很可能已经被公认为高效的网络或系统管理员,您的同行可能会向您寻求帮助和建议。但是,当您向他们提供建议并讨论 IT 将在未来 5 年内经历的变革理念时,又发现了另一个资源故障。它的状态变为红色,警报开始出现。但是,因为您已经消除了 80% 的冗余警报,并且自动执行了普通管理员必须执行的大量分类工作,所以您知道这个问题不是误报.

整个团队现在都在竞相寻找根本原因。花在解码问题上的每一分钟都意味着多一分钟的中断。你不喜欢它。你的老板不喜欢它。而且,最重要的是,您的客户不喜欢它。但是,作为一名有效的网络或系统管理员,您还有一张王牌。几分钟之内,您就可以准确地知道如何以及在何处查找问题并执行根本原因分析。

除了自动化,最有效的网络和系统管理员明白,能够访问正确的工具,不仅可以显示统一的仪表板,还可以一键向下钻取,是成功和让客户满意的关键(也是让经理满意的关键) )。结合适当的单层玻璃,这些工具非常有效,每周可以为您节省 10-15 小时!(这就像每个工作周都有一天的空闲时间!)这是一个单击向下钻取功能应该如何工作的示例。

了解7个高效网络和系统管理员的习惯-南华中天

6.对需要大量护理和喂食的工具说不

正如我们前面所讨论的,典型的网络或系统管理员有大约 10-12 种工具可供他们用来监控他们的 IT 资源。其中至少有一些可能需要几个月的时间来配置、部署和定制。而且,供应商通常不会提及支持其工具所需的大型复杂基础设施。最有效的网络和系统管理员了解此类工具的两个重要方面:

  1. 它们的部署和管理成本很高。
  2. 对于他们所有的花里胡哨,他们的能力不会超过 20-30% 将被使用!

那么,他们如何将这一庞大的工具列表缩减为最高效的工具呢?简单地说,最有效的网络和系统管理员会问供应商一个关键问题,“管理您的管理系统的成本是多少?”然后他们无情地踢出任何有问题的产品。

“违规产品”是指任何违反现代管理平台四项原则的 IT 管理软件。

  1. 零成本部署。
  2. 没有管理/维护成本。
  3. 一站式解决方案。
  4. 提供真正的单一窗格视图。

7. 使用预测性和规范性报告和分析

对于网络和系统管理员拥有的所有工具,用户仍然经常报告故障。之所以会发生这种情况,是因为所有监控工具都超出了资源最终用户以外的其他人设置的阈值。即使是大多数网络或系统管理员也无法完全控制他们必须使用的所有工具的所有阈值。

这会导致以下两种情况之一:

  1. 如果阈值设置得太高,至少有一些用户会在警报消失之前遇到问题。
  2. 如果阈值设置得太低,系统可能会生成数百个无意义的警报。

最有效的网络和系统管理员明白解决方案不是简单地调整警报阈值。相反,他们制定了一个全面的策略,从报告失败到预测失败。他们是怎么做到的?通过部署具有内置预测 报告功能的解决方案。

了解7个高效网络和系统管理员的习惯-南华中天

使用来自过去负载、阈值和可用资源的数据,预测报告引擎应用机器学习 (ML) 算法来确定是否存在真正的故障可能性。这是一组预测报告的一个很好的例子。我们之前已经介绍过预测报告,甚至提出了解决方案。但是,请注意,这仍然是一项不断发展的技术。

结论

那是很多信息。但是,如果付诸实践,这七个习惯可以让你的团队从优秀变成优秀!如果您了解更多技术或希望我们更详细地解释任何内容,请在下面发表评论。拥有您所需的工具来做您想做的事。