感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
Predictive AIOps 简介
- IT 运维中的预测分析概述
- 用于预测的数据来源(日志、指标、事件)
- 时间序列预测和异常模式的关键概念
设计事件预测模型
- 标记历史事件和系统行为
- 选择和训练模型(例如 LSTM、Random Forest、AutoML)
- 评估模型性能和处理误报
数据收集与特征工程
- 摄取和对齐日志与指标数据以供模型输入
- 从结构化和非结构化数据中提取特征
- 处理操作管道中的噪声和缺失数据
自动化根因分析(RCA)
- 基于图的服务与基础设施关联
- 使用机器学习从事件链中推断可能的根因
- 使用拓扑感知仪表板可视化 RCA
修复与 Workflow Automation
- 与自动化平台集成(例如 Ansible、Rundeck)
- 触发回滚、重启或流量重定向
- 审核和记录自动化干预
扩展智能 AIOps 管道
- MLOps 用于可观测性:重新训练和模型版本控制
- 在分布式节点上实时运行预测
- 在生产环境中部署 AIOps 的最佳实践
案例研究与实际应用
- 使用预测 AIOps 模型分析真实事件数据
- 使用合成和生产数据部署 RCA 管道
- 行业用例回顾:云中断、微服务不稳定、网络退化
总结与后续步骤
要求
- 具备使用监控系统(如Prometheus或ELK)的经验
- 具备Python的基础知识以及基本的机器学习技能
- 熟悉事件管理工作流程
受众
- 高级站点可靠性工程师(SREs)
- IT自动化架构师
- DevOps与可观测性平台负责人
14 小时