感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
预测性AIOps简介
- IT运营中的预测分析概述。
- 用于预测的数据源(日志、指标、事件)。
- 时间序列预测与异常模式的关键概念。
设计事件预测模型
- 标记历史事件与系统行为。
- 选择并训练模型(如LSTM、随机森林、AutoML)。
- 评估模型性能与处理误报。
数据收集与特征工程
- 为模型输入摄取并对齐日志与指标数据。
- 从结构化和非结构化数据中提取特征。
- 处理运营管道中的噪声与缺失数据。
自动化根因分析(RCA)
- 基于图的服务与基础设施关联。
- 使用ML从事件链中推断可能的根因。
- 使用拓扑感知仪表板可视化RCA。
修复与工作流自动化
- 与自动化平台(如Ansible、Rundeck)集成。
- 触发回滚、重启或流量重定向。
- 审核并记录自动化干预措施。
扩展智能AIOps管道
- 可观测性的MLOps:重新训练与模型版本控制。
- 在分布式节点上实时运行预测。
- 在生产环境中部署AIOps的最佳实践。
案例研究与实际应用
- 使用预测性AIOps模型分析真实事件数据。
- 使用合成数据和生产数据部署RCA管道。
- 行业用例回顾:云中断、微服务不稳定、网络退化。
总结与后续步骤
要求
- 具备Prometheus或ELK等监控系统的使用经验。
- 具备Python和基础机器学习的知识。
- 熟悉事件管理工作流。
受众
- 高级站点可靠性工程师(SREs)。
- IT自动化架构师。
- DevOps与可观测性平台负责人。
14 小时