课程大纲

AWS云运维基础

  • 云中的运维角色和职责。
  • AWS账户结构、组织和多账户策略。
  • 核心运维服务:CloudWatch、CloudTrail、AWS Config。

基础设施即代码与配置管理

  • IaC和不可变基础设施的原则。
  • 使用Terraform和AWS CloudFormation进行配置。
  • 管理状态、模块和环境升级。

CI/CD与部署策略

  • 为云原生apps设计CI/CD流水线。
  • 蓝绿部署、金丝雀部署和滚动部署。
  • 自动回滚、健康检查和发布验证。

监控、可观测性与告警

  • 指标、日志和跟踪:收集、存储和分析。
  • 使用CloudWatch、X-Ray和第三方可观测性工具。
  • 定义SLOs/SLIs、告警策略和值班实践。

安全运维与身份管理

  • IAM最佳实践、最小权限和跨账户访问。
  • 密钥管理、KMS和安全参数存储。
  • 运维安全:补丁策略、漏洞扫描和审计跟踪。

弹性、备份与灾难恢复

  • 设计容错和高可用性。
  • 备份策略、快照自动化和恢复流程。
  • 灾难恢复计划和操作手册创建。

成本优化与治理

  • 成本可见性:计费、标签和成本分配策略。
  • 资源优化、预留实例/节省计划和预算控制。
  • 治理:策略、护栏和合规自动化。

容器、Serverless与运行时运维

  • ECS、EKS和Lambda的运维注意事项。
  • 服务发现、自动扩展和资源限制。
  • 日志记录、跟踪和调试容器化工作负载。

事件响应、操作手册与混沌工程

  • 基于操作手册的事件响应和事后分析实践。
  • 自动化修复和自愈模式。
  • 混沌实验简介:验证弹性。

实践工作坊:操作一个示例工作负载

  • 使用IaC和CI/CD流水线部署一个示例应用。
  • 实施监控、告警和自动化修复脚本。
  • 模拟事件并练习基于操作手册的响应。

总结与下一步

要求

  • 对云概念和网络有基本了解。
  • 熟悉Linux命令行和脚本。
  • 具备源代码控制(Git)和基本CI/CD概念的经验。

受众

  • 云运维工程师。
  • SRE和平台工程师。
  • DevOps工程师和技术团队负责人。
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类