课程大纲

介绍

  • 深度学习扩展挑战概述
  • DeepSpeed 及其功能概述
  • DeepSpeed 与其他分布式深度学习库的比较

开始

  • 设置开发环境
  • 安装 PyTorch 和 DeepSpeed
  • 配置 DeepSpeed 进行分布式训练

DeepSpeed 优化功能

  • DeepSpeed 训练管道
  • ZeRO(内存优化)
  • 激活检查点
  • 梯度检查点
  • 流水线并行性

使用 DeepSpeed 扩展模型

  • 使用 DeepSpeed 进行基本缩放
  • 先进的缩放技术
  • 性能注意事项和最佳做法
  • 调试和故障排除技术

高级 DeepSpeed 主题

  • 先进的优化技术
  • 将 DeepSpeed 与混合精度训练结合使用
  • 不同硬件(例如 GPUs、TPU)上的 DeepSpeed
  • 具有多个训练节点的 DeepSpeed

将 DeepSpeed 与 Py 集成Torch

  • 将 DeepSpeed 与 PyTorch 工作流集成
  • 将 DeepSpeed 与 PyTorch Lightning 一起使用

故障 排除

  • 调试常见的 DeepSpeed 问题
  • 监视和日志记录

摘要和后续步骤

  • 关键概念和功能回顾
  • 在生产中使用 DeepSpeed 的最佳实践
  • 了解有关 DeepSpeed 的更多信息的更多资源

要求

  • 深度学习原理的中级知识
  • 具有 PyTorch 或类似深度学习框架的经验
  • 熟悉 Python 编程

观众

  • 数据科学家
  • 机器学习工程师
  • 开发 人员
 21 小时

人数



每位参与者的报价

相关课程

课程分类