感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
AIOps简介
- AIOps是什么及其重要性
- 传统监控与AIOps驱动的可观测性对比
- AIOps架构及关键组件
收集与规范化运营数据
- 可观测数据类型:指标、日志和跟踪
- 从多个来源(服务器、容器、云)摄取数据
- 使用代理和导出器(Prometheus、Beats、Fluentd)
数据关联与异常检测
- 时间序列关联与统计方法
- 使用机器学习模型进行异常检测
- 检测分布式系统中的事件
告警与噪音减少
- 设计智能告警规则和阈值
- 抑制、去重与告警分组
- 与Alertmanager、Slack、PagerDuty或Opsgenie集成
根本原因分析与可视化
- 使用仪表板可视化指标并检测趋势
- 探索事件与时间线以进行根本原因分析(RCA)
- 使用分布式跟踪工具跨层追踪问题
自动化与修复
- 从事件触发自动化脚本或工作流
- 与ITSM系统(ServiceNow、Jira)集成
- 用例:自愈、扩展、流量重定向
开源与商业AIOps平台
- 工具概览:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
- 选择AIOps平台的评估标准
- 所选技术栈的演示与实操
总结与下一步
要求
- 了解IT运营和系统监控概念
- 具备监控工具或仪表板的使用经验
- 熟悉基本的日志和指标格式
受众
- 负责基础设施和应用程序的运营团队
- 站点可靠性工程师(SREs)
- IT监控和可观测性团队
14 小时