课程大纲

AIOps简介

  • AIOps是什么及其重要性
  • 传统监控与AIOps驱动的可观测性对比
  • AIOps架构及关键组件

收集与规范化运营数据

  • 可观测数据类型:指标、日志和跟踪
  • 从多个来源(服务器、容器、云)摄取数据
  • 使用代理和导出器(Prometheus、Beats、Fluentd)

数据关联与异常检测

  • 时间序列关联与统计方法
  • 使用机器学习模型进行异常检测
  • 检测分布式系统中的事件

告警与噪音减少

  • 设计智能告警规则和阈值
  • 抑制、去重与告警分组
  • 与Alertmanager、Slack、PagerDuty或Opsgenie集成

根本原因分析与可视化

  • 使用仪表板可视化指标并检测趋势
  • 探索事件与时间线以进行根本原因分析(RCA)
  • 使用分布式跟踪工具跨层追踪问题

自动化与修复

  • 从事件触发自动化脚本或工作流
  • 与ITSM系统(ServiceNow、Jira)集成
  • 用例:自愈、扩展、流量重定向

开源与商业AIOps平台

  • 工具概览:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
  • 选择AIOps平台的评估标准
  • 所选技术栈的演示与实操

总结与下一步

要求

  • 了解IT运营和系统监控概念
  • 具备监控工具或仪表板的使用经验
  • 熟悉基本的日志和指标格式

受众

  • 负责基础设施和应用程序的运营团队
  • 站点可靠性工程师(SREs)
  • IT监控和可观测性团队
 14 小时

即将举行的公开课程

课程分类