课程大纲

预测性AIOps简介

  • IT运营中的预测分析概述。
  • 用于预测的数据源(日志、指标、事件)。
  • 时间序列预测与异常模式的关键概念。

设计事件预测模型

  • 标记历史事件与系统行为。
  • 选择并训练模型(如LSTM、随机森林、AutoML)。
  • 评估模型性能与处理误报。

数据收集与特征工程

  • 为模型输入摄取并对齐日志与指标数据。
  • 从结构化和非结构化数据中提取特征。
  • 处理运营管道中的噪声与缺失数据。

自动化根因分析(RCA)

  • 基于图的服务与基础设施关联。
  • 使用ML从事件链中推断可能的根因。
  • 使用拓扑感知仪表板可视化RCA。

修复与工作流自动化

  • 与自动化平台(如Ansible、Rundeck)集成。
  • 触发回滚、重启或流量重定向。
  • 审核并记录自动化干预措施。

扩展智能AIOps管道

  • 可观测性的MLOps:重新训练与模型版本控制。
  • 在分布式节点上实时运行预测。
  • 在生产环境中部署AIOps的最佳实践。

案例研究与实际应用

  • 使用预测性AIOps模型分析真实事件数据。
  • 使用合成数据和生产数据部署RCA管道。
  • 行业用例回顾:云中断、微服务不稳定、网络退化。

总结与后续步骤

要求

  • 具备Prometheus或ELK等监控系统的使用经验。
  • 具备Python和基础机器学习的知识。
  • 熟悉事件管理工作流。

受众

  • 高级站点可靠性工程师(SREs)。
  • IT自动化架构师。
  • DevOps与可观测性平台负责人。
 14 小时

即将举行的公开课程

课程分类