课程大纲

介绍

  • SRE如何结合传统IT和软件开发。
  • 自动化和可观测性的必要性
  • 软件工程师与系统管理员的角色对比。
  • 站点可靠性工程师与DevOps工程师的对比。

IT系统概述

  • 系统架构,包括本地和云端。

SRE原则与实践概述

  • 基础设施即代码。
  • 容器化与编排的作用(Docker、Kubernetes等)
  • 持续集成、持续部署与持续交付。
  • 可观测性。

评估IT系统

  • 盘点团队和组织资源。
  • 绘制系统和流程图。
  • 评估SRE的潜在影响。
  • 软件工程团队的角色。
  • 运营团队的角色。
  • 管理层的角色。

维护系统的可靠性

  • 描述和衡量服务的期望可靠性。
  • 理解服务级别目标(SLOs)
  • 理解服务级别指标(SLIs)和服务级别协议(SLAs)。
  • 处理错误预算。
  • 制定SLO。

优化系统管理

  • 设置开发环境
  • 评估SRE工具
  • 优先考虑自动化任务。
  • 编写软件。

部署“基础设施即代码”

  • 测试和迭代代码
  • 使系统具备抗脆弱性
  • 从失败中学习

监控系统

  • 观察系统性能。
  • SRE工具和技术。

SRE的未来

总结与结论

要求

  • 对IT基础设施有基本了解。
  • 对软件开发流程有基本概念。
  • 具备任何编程或脚本语言的经验。

受众

  • 开发者
  • 系统管理员
  • 软件架构师
  • DevOps工程师
  • IT经理
 21 小时

客户评论 (7)

即将举行的公开课程

课程分类