课程大纲

MLOps on Kubernetes基础

  • MLOps的核心概念
  • MLOps与传统DevOps的对比
  • 机器学习生命周期管理的关键挑战

容器化机器学习工作负载

  • 打包模型和训练代码
  • 优化机器学习容器镜像
  • 管理依赖项和可重复性

机器学习的CI/CD

  • 构建自动化机器学习仓库结构
  • 集成测试和验证步骤
  • 触发重新训练和更新的流水线

模型部署的GitOps

  • GitOps原则和工作流
  • 使用Argo CD进行模型部署
  • 模型和配置的版本控制

Kubernetes上的流水线编排

  • 使用Tekton构建流水线
  • 管理多步骤的机器学习工作流
  • 调度和资源管理

监控、日志记录和回滚策略

  • 跟踪数据漂移和模型性能
  • 集成告警和可观测性
  • 回滚和故障转移方法

自动化重新训练和持续改进

  • 设计反馈循环
  • 自动化定期重新训练
  • 集成MLflow进行跟踪和实验管理

高级MLOps架构

  • 多集群和混合云部署模型
  • 通过共享基础设施扩展团队
  • 安全和合规性考虑

总结与下一步

要求

  • 对Kubernetes基础知识的理解
  • 具备机器学习工作流的经验
  • 熟悉基于Git的开发

受众

  • 机器学习工程师
  • DevOps工程师
  • 机器学习平台团队
 14 小时

客户评论 (3)

即将举行的公开课程

课程分类