课程大纲

Kubeflow 简介

  • 了解 Kubeflow 的使命与架构。
  • 核心组件与生态系统概述。
  • 部署选项与平台功能。

使用 Kubeflow 仪表板

  • 用户界面导航。
  • 管理 Notebook 和工作区。
  • 集成存储与数据源。

Kubeflow Pipelines 基础

  • 管道结构与组件设计。
  • 使用 Python SDK 编写管道。
  • 执行、调度与监控管道运行。

在 Kubeflow 上训练机器学习模型

  • 分布式训练模式。
  • 使用 TFJob、PyTorchJob 等操作符。
  • Kubernetes 中的资源管理与自动扩展。

使用 Kubeflow 部署模型

  • KFServing / KServe 概述。
  • 使用自定义运行时部署模型。
  • 管理版本、扩展与流量路由。

在 Kubernetes 上管理机器学习工作流

  • 数据、模型与工件的版本控制。
  • 为机器学习管道集成 CI/CD。
  • 安全性与基于角色的访问控制。

生产环境机器学习的最佳实践

  • 设计可靠的工作流模式。
  • 可观测性与监控。
  • 解决常见的 Kubeflow 问题。

高级主题(可选)

  • 多租户 Kubeflow 环境。
  • 混合与多集群部署场景。
  • 使用自定义组件扩展 Kubeflow。

总结与下一步

要求

  • 了解容器化应用。
  • 具备基本的命令行工作流经验。
  • 熟悉 Kubernetes 的基本概念。

目标受众

  • 机器学习从业者。
  • 数据科学家。
  • 初次接触 Kubeflow 的 DevOps 团队。
 14 小时

客户评论 (5)

即将举行的公开课程

课程分类