课程大纲

GPU加速容器化简介

  • 了解GPU在深度学习工作流中的使用
  • Docker如何支持基于GPU的工作负载
  • 关键性能考虑因素

安装和配置NVIDIA容器工具包

  • 设置驱动程序和CUDA兼容性
  • 验证容器内的GPU访问
  • 配置运行时环境

构建支持GPU的Docker镜像

  • 使用CUDA基础镜像
  • 在GPU就绪的容器中打包AI框架
  • 管理训练和推理的依赖项

运行GPU加速的AI工作负载

  • 使用GPU执行训练任务
  • 管理多GPU工作负载
  • 监控GPU利用率

优化性能和资源分配

  • 限制和隔离GPU资源
  • 优化内存、批处理大小和设备放置
  • 性能调优和诊断

容器化推理和模型服务

  • 构建推理就绪的容器
  • 在GPU上服务高负载工作负载
  • 集成模型运行器和API

使用Docker扩展GPU工作负载

  • 分布式GPU训练策略
  • 扩展推理微服务
  • 协调多容器AI系统

GPU支持容器的安全性和可靠性

  • 确保共享环境中的GPU访问安全
  • 加固容器镜像
  • 管理更新、版本和兼容性

总结与下一步

要求

  • 了解深度学习基础知识
  • 具备Python和常见AI框架的经验
  • 熟悉基本的容器化概念

受众

  • 深度学习工程师
  • 研究与开发团队
  • AI模型训练师
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类