IT 运营数据逐年增长。一些估计表明,IT 运营团队的平均运营数据量每年会增加一倍或三倍。这场洪水的结果是,IT 团队正在寻找他们能找到的任何方法来理解所有这些数据。许多团队将 AIOps 作为他们解析和分类所有这些事件的解决方案。AIOps 并不适合每个组织,但它非常适合许多组织。在这篇文章中,我们将讨论 AIOps 是什么以及它的承诺。我们还将讨论如何制定在您的组织中利用 AIOps 的策略。
什么是 AIOps?
在构建 AIOps 策略之前,您首先需要了解 AIOps 到底是什么。从高层次上讲,AIOps是使用人工智能来增强 IT 运营。您可能听说过DevOps 哲学,它试图通过将开发和运营团队融合在一起来释放速度和质量。DevOps 团队的目标是更快地交付更好的软件。那太棒了!但这是有代价的。正如我们上面提到的,运营活动正在以越来越快的速度扩展。在更多服务器上运行的更多应用程序的更多版本使有关您的应用程序和服务以及服务器的数据越来越多。
AIOps 是对这种不断增长的增长的回应。AIOps 建议您可以将这种操作事件的大数据方法与机器学习相结合,而不是试图减少事件的数量,以消除噪音并专注于对您的业务最重要的事件。
拥有人工智能战略意味着什么?
如果您的团队今天没有 AI 策略,那么您很可能会在未来几年内开发一个。人工智能解决了许多传统上被认为相当困难的计算问题。人工智能的新用途每天都在出现,但经典应用包括图像识别和文本解析等。虽然传统计算侧重于严格的逻辑,但人工智能的现代使用更倾向于模式匹配之类的东西。
然而,人工智能应用程序有一个缺点:它们的计算成本很高。虽然有多种AI 方法,但每种方法的基石都是从一大堆数据中训练出一个 AI 模型。AI 计算通常需要专用的专用硬件和大量计算资源,例如 CPU 内核和内存。确实,当今所有主要的云提供商都提供了专用 AI 硬件的选项。你需要一个策略来了解你将如何处理你的 AI 采用。制定人工智能战略意味着至少要回答以下三个问题:
- 我们采用人工智能会产生什么商业价值?
- 我们将使用哪些数据来训练我们的 AI 模型?
- 我们如何知道我们的 AI 模型何时产生了高质量的结果?
我们如何制定 AIOps 策略?
就像我们之前提到的,每个 AI 策略都需要回答至少三个问题。您的 AIOps 策略也不例外。幸运的是,因为我们将这种 AI 参与的范围限制在 IT 运营,这使得回答这些问题变得更加容易。让我们来看看它们,在我们进行的过程中,我们将对每个问题进行更多探索。到最后,您应该对如何自己回答这些问题有了一个很好的了解,从而使您能够很好地制定自己的 AI 策略。
采用 AIOps 会产生什么商业价值?
这个问题是第一位的,因为它是迄今为止最重要的问题。就像采用任何其他新技术一样,您应该认真思考采用 AIOps 为您的公司带来的价值。正如我们所指出的,人工智能硬件和采用并不是一项廉价的工作。虽然它无疑是一项很酷的技术,但 AI 就像任何其他类型的软件应用程序一样。它只回答您知道如何提出的问题,因此您要确保您提出的问题是有价值的。
采用 AIOps 策略的团队通常希望消除大量操作事件和日志的噪音。通常,这些集成是由噪音太大且信号不足的运营团队领导的。他们正在寻找确定哪些事件表明服务器崩溃或恶意入侵者危害应用程序等事情。如果您正在处理此类问题,AIOps 可能非常适合您。但 AIOps 不仅仅是一个更高级的监控系统。训练有素的 AIOps 系统可以在故障发生之前识别出导致故障的模式。同一系统还将识别系统中可能需要查看的奇怪行为。AIOps 模型可以了解哪些事件需要路由到哪个团队,从而减少冗余和噪音。
简而言之,AIOps 策略旨在让您的运营团队更有效、更高效。如果这是您的运营团队可以使用的东西,那么制定 AIOps 策略对您的公司来说可能是一个不错的举措。
我们将使用哪些数据来训练我们的 AI 模型?
这是一大堆人工智能策略失败的部分。人工智能无疑是很酷的技术,但它的好坏取决于你用来训练它的数据。虽然您可以尝试使用无监督机器学习等技术在没有明确定义的数据集的情况下训练机器学习模型,但您可能会发现很难得出高质量的结论。实际上,您需要努力识别用于训练 AI 模型的数据。这意味着要花时间手动仔细研究操作事件和日志并对其进行分类。这种工作非常耗时,但需要构建一个好的人工智能平台。
这是可以提供帮助的地方。AIOps:Autopilot模型利用了 20 年的现有运营数据。已经完成了对事件进行分类的艰苦工作,让新客户很容易进入并在第一天就开始享受 AIOps 集成的好处。
如果您不选择在现有模型上构建 AIOps 平台,请记住您需要大量数据来有效地训练模型。一旦你开始训练,训练阶段也会有相当大的开销。预计您还需要一段时间才能准备好使用新的 AIOps 平台。
我们如何知道我们的 AI 模型何时产生高质量的结果?
机器学习的一个典型问题是过度拟合,或者训练一个效果很好的模型——只要它只查看您的样本数据。当您制定 AIOps 策略时,您正在寻找的 AI 集成不仅仅适用于您已有的数据。毕竟,您不会仅仅为接下来的 6 或 12 个月制定 AIOps 策略。您正在考虑一个更广泛的时间表,并且您需要您的技术随着组织的发展而发展。
调整 AI 模型的方法是在数据上对其进行训练,然后在新数据上放松。您会很快注意到该模型在某些事情上做得很好,而在某些事情上做得很差。在操作方面,它可能正确识别一些关键事件,但完全错过了其他事件。所以,你做任何软件团队都会做的事情:迭代。正如我们所指出的,迭代 AI 模型意味着收集大量不同的数据,然后花费 CPU 时间对其进行分析以开发模型。当你这样想时,不断迭代模型听起来很痛苦。好消息是,随着模型的成熟,您将花费更少的时间对其进行迭代。
虽然您可以通过在项目早期识别运营数据源来将其中的一些工作推到左侧,但您不会遇到所有问题。您的 AIOps 策略应包括迭代模型和识别被忽视的数据源所花费的时间。此外,您的策略应包括定期测试具有新数据的模型,以确保模型返回您期望的结果。您知道您的模型产生高质量结果的唯一方法是定期测试它们。如果没有这些高质量的结果,您只是在浪费 CPU 周期。
您的 AIOps 策略是什么?
到目前为止,您应该对基本的 AIOps 策略大纲有了一个很好的了解。你可能不知道每一个细节。您可能需要咨询您的团队,以确定 AIOps 是否适合您的运营。但是,如果您能回答这三个大问题,那么您就成功了。如果其中一些问题似乎难以回答,可以为您提供帮助。AIOps:Autopilot 平台简化了数据收集和模型训练。我们拥有数十年的数据,并且我们已经多次迭代我们的模型。我们已经看到了几乎所有内容,因此如果您需要帮助构建您的 AIOps 策略,我们很乐意交谈。