课程大纲

介绍

  • SRE如何融合传统IT与软件开发。
  • 自动化与可观测性的必要性。
  • 软件工程师与系统管理员的角色。
  • 站点可靠性工程师与DevOps工程师的区别。

IT系统概述

  • 系统架构,包括本地与云端。

SRE原则与实践概述

  • 基础设施即代码。
  • 容器化与编排的作用(Docker、Kubernetes等)。
  • 持续集成、持续部署与持续交付。
  • 可观测性。

评估IT系统

  • 盘点团队与组织资源。
  • 绘制系统与流程图。
  • 评估SRE的潜在影响。
  • 软件工程团队的角色。
  • 运营团队的角色。
  • 管理层的角色。

维护系统可靠性

  • 描述与衡量服务的期望可靠性。
  • 理解服务级别目标(SLOs)。
  • 理解服务级别指标(SLIs)与服务级别协议(SLAs)。
  • 处理错误预算。
  • 制定SLO。

优化系统管理

  • 设置开发环境。
  • 评估SRE工具。
  • 优先自动化任务。
  • 编写软件。

部署“基础设施即代码”

  • 测试与迭代代码。
  • 使系统具备抗脆弱性。
  • 从失败中学习。

监控系统

  • 观察系统性能。
  • SRE工具与技术。

SRE的未来

总结与结论

要求

  • 对IT基础设施有基本了解。
  • 对软件开发流程有基本概念。
  • 具备任何语言的编程或脚本编写经验。

受众

  • 开发人员
  • 系统管理员
  • 软件架构师
  • DevOps工程师
  • IT经理
 21 小时

客户评论 (7)

即将举行的公开课程

课程分类