课程大纲

介绍

  • 深度学习扩展挑战概述
  • DeepSpeed 及其功能概述
  • DeepSpeed 与其他分散式深度学习库的比较

开始

  • 设置开发环境
  • 安装 PyTorch 和 DeepSpeed
  • 配置 DeepSpeed 进行分散式训练

DeepSpeed 优化功能

  • DeepSpeed 训练管道
  • ZeRO (记忆体优化)
  • 激活检查点
  • 梯度检查点
  • 管道并行

使用 DeepSpeed 扩展模型

  • 使用 DeepSpeed 进行基本扩展
  • 高级缩放技术
  • 性能注意事项和最佳实践
  • 调试和故障排除技术

高级 DeepSpeed 主题

  • 高级优化技术
  • 将 DeepSpeed 与混合精度训练结合使用
  • 不同硬体上的 DeepSpeed(例如 GPU、TPU)
  • 具有多个训练节点的 DeepSpeed

将 DeepSpeed 与 Py 集成Torch

  • 将 DeepSpeed 与 PyTorch 工作流集成
  • 将 DeepSpeed 与 PyTorch Lightning 结合使用

故障排除

  • 调试常见的 DeepSpeed 问题
  • 监控和日志记录

总结和后续步骤

  • 关键概念和功能回顾
  • 在生产中使用 DeepSpeed 的最佳实践
  • 了解有关 DeepSpeed 的更多资讯的更多资源

要求

  • 深度学习原理的中级知识
  • 使用 PyTorch 或类似深度学习框架的经验
  • 熟悉 Python 程式设计

观众

  • 数据科学家
  • 机器学习工程师
  • 开发人员
 21 小时

即将举行的公开课程

课程分类