事件管理如何发展以及人工智能 (AI) 如何帮助团队更聪明地工作,而不是更努力地工作。事故会给组织带来一系列问题,从临时停机到数据丢失。如果做得好,事件管理可以提供一种高效且有效的方法来修复各种事件,几乎不会造成中断,并使组织为下一次事件做好更充分的准备。
事件管理植根于 IT服务台,长期以来一直是IT 运营 (ITOps)与最终用户之间的主要接口。随着技术的进步并变得更加复杂,组织看待事件响应的方式也随之改变。它已经远远超出了帮助用户解决问题的范围,成为保持应用程序持续正常运行和加速持续改进工作的过程。
什么是事件管理?
事件管理是 IT 运营和 DevOps 团队用来响应和解决可能影响服务质量或服务运营的计划外事件的过程。事件管理旨在识别和纠正问题,同时保持正常服务并最大限度地减少对业务的影响。
IT 事件管理
公司 IT 运营中的事件管理(通常称为ITIL事件管理)解决了可能影响服务和业务运营的范围广泛的问题,从笔记本电脑崩溃或打印机错误到 Wi-Fi 连接问题和网络停机。
ITSM(IT服务管理)框架下的事件管理是ITSM服务模型的一个方面。IT 的事件管理不是专注于创建系统和技术,而是更多地以用户为中心,旨在保持系统在线和运行——无论是应用程序还是端点(例如,传感器或台式计算机)。
事件与服务请求
在 ITSM 中,IT 部门扮演着各种角色,包括解决出现的问题。这些问题的严重性是事件与服务请求的区别。简单地说,服务请求就是用户要求提供某些东西,例如建议或设备。服务可包括请求协助重置密码或为台式计算机获取额外内存。另一方面,事件更为紧急,表明存在需要解决的潜在错误。
事件与问题
事件是导致服务中断的单个计划外事件,而问题是服务中断的根本原因,它可以是单个事件,也可以是一系列级联事件。不同之处在于补救措施以及响应者如何解决问题。事件响应是被动的。IT 部门收到警报并处理事件。但是,在解决问题时,IT 团队会找出根本原因,然后进行修复。问题管理采取积极主动的方法,查看各种类型的事件和出现的模式,以了解如何预防未来的事件。
DevOps 事件管理
DevOps团队专注于寻找更有效的方法来构建、测试和部署软件,这在一定程度上需要快速解决事件。与 ITIL 事件管理一样,DevOps 事件管理旨在在不中断运营的情况下解决问题。例如,DevOps 团队可能会监控较差的平均故障间隔时间 (MTBF) 指标,这可能表明存在需要调查的潜在问题。
由于 DevOps 植根于持续改进,因此非常注重事后分析和透明的无责备文化。目标是提高整体系统性能,更快地解决未来的事件,并防止未来的事件发生。与当今的 IT 团队一样,DevOps 可以使用自动配置、事件优先级排序和支持人工智能 (AI) 的根本原因分析工具来确保正常运行时间,首先解决最紧迫的事件,并更快地学习如何修复和预防未来的问题。
事件管理流程
组织通常会创建一个事件管理流程,记录响应团队应采取的事件顺序。每个人都应该知道哪些工作人员负责处理事件,解决问题所需的时间,何时将事件升级到下一个级别以及如何记录事件以及解决问题的方式。
定义流程后,事件管理工作流程通常如下所示:
- 识别事件:无论是最终用户向服务台提交票证还是自动警报系统将问题通知团队,响应团队都需要一种方法来接收系统内的问题报告。
- 记录事件并对事件进行分类:这包括将报告输入事件记录系统并分配优先级,包括应由哪个级别的员工处理。例如,1 级事件通常由经验不足的新员工处理,而 2 级和 3 级事件的解决难度越来越大,需要最有经验的响应人员。
- 控制问题:如果是安全事件,响应团队必须迅速采取行动控制问题,无论是 DDoS 攻击还是数据泄露。在所有情况下,团队都必须确保事件不会传播并进一步影响系统。
- 诊断事件:这是进行故障排除的地方。响应团队可以使用知识库或ChatOps工具来建议可能的原因并节省时间。
- 解决事件:一旦确定原因,团队就会着手解决事件,无论是配置额外的内存还是解决网络中断。
- 关闭并审查事件:事后审查是在当今数字环境中提高可靠性和可用性的一个重要方面。这些数据不仅增加了组织的机构知识,而且还可以用于机器学习和支持AI的工具,以帮助更快地识别事件,甚至在可能发生事件时创建通知。
为什么要使用事件管理?
所有组织都需要解决问题和解决事件。这就是他们保持业务运转的方式。但拥有有效的事件解决工具和团队也有明显的好处,这些工具和团队可以在不对业务造成重大中断的情况下快速做出反应。这些好处包括:
- 更快地解决问题:事件管理工具、自动化和AIOps帮助团队识别问题并快速解决问题。这反过来又通过让团队专注于核心业务运营而不是持续不断的救火来提高效率。
- 更好的用户体验:当事件在第一时间得到正确修复并且修复速度更快时,它可以提高最终用户的服务质量。这始于一个清晰且易于使用的服务中断报告系统,并在处理事件时继续进行良好的沟通。
- 更高的运营效率:事件响应创建了一个系统,在这个系统中,问题有明确的解决途径,并有助于随着时间的推移建立制度知识。这些知识——要么由员工掌握,要么集成到由人工智能驱动的自动化系统中——有助于记录重要的绩效指标(例如,平均解决时间 (MTTR)),有助于确保组织保持高水平的服务。
- 更深入的洞察力:借助有效的事件管理系统,团队可以更快地解决重大事件并提取洞察力以进行根本原因分析。当团队成员记录过去的事件是如何解决的时,他们就开始创建一个剧本来解决未来类似的问题。
- 满足 SLA:服务级别协议 (SLA) 定义公司需要向客户提供的服务级别。因此,事件响应和管理在满足 SLA 中定义的指标和关键绩效指标 (KPI) 方面发挥着关键作用。
事件管理工具和自动化
IT 运营日益复杂,部分原因是组织在日常业务运营中依赖的许多应用程序,这使得事件响应工具和自动化比以往任何时候都更加重要。
以下是一些最常见的事件管理工具:
- 监控工具:帮助识别中断、触发警报和诊断事件。监控工具还可以通过释放 DevOps 团队来更好地管理软件生命周期来降低成本。
- 服务台:用户提交工单、与服务台团队聊天、监控工单进度和执行一些自助服务任务的地方。通常,服务台通过一个管理系统运行,该系统支持关键事件管理任务,例如优先级排序和分类。
- AlOps 平台:使用日志和历史数据,AIOps 可以为更好的决策制定、更智能的资源分配和更快的事件响应提供上下文。使用 AIOps 进行事件管理的公司报告称,IT 成本和 MTTR 降低了 50%。
- VDocumentation:自动记录环境变化的脚本,使记录事件以进行事后分析变得容易。例如,团队可以将 PowerCLI 脚本设置为按月运行以记录事件以进行更深入的分析。