感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
AIOps 开源工具介绍
- AIOps 概念与优势概述
- 可观测性栈中的 Prometheus 和 Grafana
- ML 在 AIOps 中的应用:预测性与反应性分析
Prometheus 和 Grafana 的配置
- 安装并配置 Prometheus 以收集时间序列数据
- 使用实时指标在 Grafana 中创建仪表板
- 探索导出器、重新标记和服务发现
ML 数据预处理
- 提取并转换 Prometheus 指标
- 准备用于异常检测和预测的数据集
- 使用 Grafana 的转换或 Python 管道
应用 Machine Learning 进行异常检测
- 异常检测的基本 ML 模型(如 Isolation Forest、One-Class SVM)
- 在时间序列数据上训练和评估模型
- 在 Grafana 仪表板中可视化异常
使用 ML 的 Forecasting 指标
- 构建简单的预测模型(ARIMA、Prophet、LSTM 简介)
- 预测系统负载或资源使用情况
- 使用预测结果进行早期警报和扩展决策
ML 与警报和自动化的集成
- 基于 ML 输出或阈值定义警报规则
- 使用 Alertmanager 和通知路由
- 在检测到异常时触发脚本或自动化工作流
AIOps 的扩展与操作化
- 集成外部可观测性工具(如 ELK stack、Moogsoft、Dynatrace)
- 在可观测性管道中操作化 ML 模型
- AIOps 在大规模应用中的最佳实践
总结与下一步
要求
- 理解系统监控和可观察性概念
- 有使用Grafana或Prometheus的经验
- 熟悉Python和基本的机器学习原理
受众
- 可观察性工程师
- 基础设施和DevOps团队
- 监控平台架构师和站点可靠性工程师(SREs)
14 小时