感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
AIOps 简介
- AIOps 是什么及其重要性
- 传统监控与 AIOps 驱动的可观测性对比
- AIOps 架构及关键组件
收集与规范化运营数据
- 可观测数据类型:指标、日志和追踪
- 从多个来源(服务器、容器、云)摄取数据
- 使用代理和导出器(Prometheus, Beats, Fluentd)
数据关联与异常检测
- 时间序列关联与统计方法
- 使用机器学习模型进行异常检测
- 检测分布式系统中的事件
告警与噪声减少
- 设计智能告警规则和阈值
- 抑制、去重和告警分组
- 与 Alertmanager、Slack、PagerDuty 或 Opsgenie 集成
根本原因分析与可视化
- 使用仪表板可视化指标并检测趋势
- 探索事件与时间线以进行根本原因分析
- 使用分布式追踪工具跨层追踪问题
自动化与修复
- 从事件触发自动化脚本或工作流
- 与 ITSM 系统集成(ServiceNow, Jira)
- 用例:自愈、扩展、流量重定向
开源与商业 AIOps 平台
- 工具概述:Prometheus, Grafana, ELK, Moogsoft, Dynatrace
- 选择 AIOps 平台的评估标准
- 演示与选定的技术栈动手实践
总结与下一步
要求
- 了解IT运维和系统监控的概念
- 具备监控工具或仪表板的使用经验
- 熟悉基本的日志和指标格式
受众
- 负责基础设施和应用的运维团队
- 站点可靠性工程师(SREs)
- IT监控和可观测性团队
14 小时