课程大纲

自愈管道的基础

  • 自主恢复的关键概念
  • CI/CD中的常见故障模式
  • 基于AI的管道稳定性方法

实时异常检测

  • 理解管道遥测数据源
  • 应用机器学习预测故障
  • 使用AI模型检测异常模式

事件识别与根本原因分析

  • 自动分类事件类型
  • 关联日志、追踪和指标
  • 使用AI信号隔离根本原因

自动恢复工作流设计

  • 定义自动化修复操作
  • 基于AI警报触发工作流
  • 将运行手册与智能决策引擎集成

构建智能反馈循环

  • 捕获历史故障数据
  • 训练模型以持续改进
  • 确保管道行为的自适应学习

将自愈能力集成到CI/CD中

  • 在构建和部署阶段嵌入自动化
  • 支持混合云和多云交付平台
  • 与组织DevOps治理保持一致

高级可靠性模式

  • 设计具有预测弹性的管道
  • 利用基于策略的决策系统
  • 通过AI编排实施回退策略

端到端自愈管道实施

  • 结合异常检测、根本原因分析和自动修复
  • 验证已完成工作流的弹性
  • 确保工程师的可观测性和透明度

总结与后续步骤

要求

  • 了解CI/CD流程
  • 具备DevOps或SRE实践经验
  • 熟悉监控或可观测性工具

受众

  • SRE工程师
  • DevOps负责人
  • 平台可靠性工程师
 14 小时

即将举行的公开课程

课程分类