课程大纲

SRE反模式

  • 识别反效果的做法
  • 认识反模式对可靠性的影响
  • 最佳实践和纠正方案

SLO作为客户满意度的代理

  • 定义服务级别指标(SLIs)和服务级别目标(SLOs)
  • 管理错误预算,平衡创新与可靠性
  • 理解分布式系统的限制

构建安全可靠的系统

  • 设计容错和弹性系统
  • 将安全性融入可靠性工程
  • 可扩展性和数据保护策略

全栈可观测性

  • 仪表化和指标收集
  • 分布式追踪和合成监控
  • 可观测性驱动开发

Platform Engineering 和 AIOps

  • 以平台为中心的工程方法
  • SRE中的自动化和编排
  • 利用DataOps和运营智能

SRE中的事件Management

  • 事件响应中的角色和职责
  • 应用OODA等框架
  • 自动化修复和AI/ML辅助解决方案

混沌工程

  • 弹性测试的原则和策略
  • 规划和执行“游戏日”演练
  • 从受控故障实验中学习

SRE作为DevOps的纯粹形式

  • 将SRE融入DevOps工作流程
  • 文化对齐和协作实践
  • 通过SRE推动组织变革

课后练习

  • 大规模系统设计案例研究
  • 高级仪表化和监控场景
  • 现实世界的可靠性问题解决

复习和考试准备

  • 最终复习DevOps Institute SRE Practitioner大纲
  • 样题和模拟测试
  • 考试策略和建议

总结和下一步

要求

  • 理解Site Reliability Engineering(SRE)的核心原则
  • 具备DevOps实践及相关工具的经验
  • 熟悉系统监控、事件管理和自动化

受众

  • 寻求DevOps Institute SRE Practitioner认证的SRE专业人员
  • 希望扩展到以可靠性为重点的角色的DevOps工程师
  • 负责可靠性策略和执行的运维领导者
 35 小时

客户评论 (4)

即将举行的公开课程

课程分类