与许多其他行业一样,信息技术 (IT) 正在利用机器学习 (ML) 和人工智能 (AI) 的最新进展来解决 IT 管理领域中存在数十年的问题。历史可以教给我们很多东西,通过深入研究多年积累的 IT 数据,我们可以找到有意义的见解并用它们来指导未来。然而,在现代 IT 中,典型组织需要监控的设备和服务的绝对数量,计算范式的复杂性;而且,生成的数据量远远超过人类能够掌握的数据量。
在当前的全球大流行中,拥有可靠的 IT 环境对几乎所有组织都至关重要。如果前面段落中的内容与您相关,您可能已经听说过 AI for IT Operations 或“ AIOps ”一词。作为 IT 基础设施监控领域的行业领导者,相信有一种系统的方式来设计和实施 AIOps。下图从我们的数据科学家的角度展示了对 AIOps 的愿景:
AIOps 的总体主题是从混乱中建立秩序——采用的方法称为DAPA:蒸馏、分析、预测和行动。
从噪声中提取信号
IT 警报可以来自基础架构中的任何位置,而且很少有事件仅发出一个警报。设备、服务和应用程序是共生的,一个小小的变化就可能引发数据海啸。为了最大限度地减少连锁反应并彻底查看数据,同时仍然能够从噪声中识别导入单,可以利用分类、聚类和时间序列分析等算法来更深入地了解每条数据以及它们之间的关系他们。
基于这种更深入的理解,降噪可以将主要信号从扩展的波中分离出来,并且只显示重要信息。还可以训练 ML 或 AI 模型以了解受监控资源的维护模式和季节性变化,从而抑制误报。
信号加权是另一种可以应用的分析技能。通过将每个信号与权重相关联,系统可以按重要性级别对信息进行排序,并将注意力集中在更严重的问题上。
分析混乱以获得结构
模型 IT 基础架构很复杂。在物理基础设施上可以有多种抽象,例如虚拟化和容器化。一套计算能力的调试和退役可以在几分钟甚至几秒内完成,计算能力的虚拟移动性可以轻松超越服务器集群或数据中心的边界。
资源聚类可以从被监控资源的元数据中学习,对资源进行启发式分类。拓扑发现将进一步连接相关资源,并勾勒出物理资源、虚拟化或业务用例的整体结构。通过应用时间序列分析,Event Correlation可以根据事件的逻辑关系将事件拼接在一起,并以更有条理的方式呈现。
通过学习过去来预测未来
当发现某种事件的模式时,因果关系分析可以绕过许多笨拙的分步分类,并指出问题最可能的根本原因。Trending Prediction可以自信地提供预测,并主动提出预防措施。
以周到的计划行事
剧本自动化是 IT 运营的终极梦想。但是,在完全理解问题并仔细评估各种修复的相关性之前,无法实现深思熟虑的解决方案。无需手忙脚乱,解决方案组装旨在从过去的事件和解决方案中学习,召集相关解决方案并评估每个解决方案或某些解决方案组合的有效性。最后,机器智能和人类智能将在Playbook Automation中融合,并及时执行建议的解决方案。