课程大纲

性能概念与指标

  • 延迟、吞吐量、功耗、资源利用率
  • 系统与模型层级的瓶颈
  • 推理与训练的性能分析

在Huawei Ascend上的性能分析

  • 使用CANN Profiler和MindInsight
  • 内核与运算元诊断
  • 卸载模式与内存映射

在Biren GPU上的性能分析

  • Biren SDK的性能监控功能
  • 内核融合、内存对齐与执行队列
  • 功耗与温度感知的性能分析

在Cambricon MLU上的性能分析

  • BANGPy与Neuware性能工具
  • 内核级别的可视化与日志解读
  • MLU性能分析工具与部署框架的集成

图与模型层级优化

  • 图剪枝与量化策略
  • 运算元融合与计算图重构
  • 输入尺寸标准化与批次调优

内存与内核优化

  • 优化内存布局与重用
  • 跨芯片组的高效缓存管理
  • 基于平台的内核级调优技术

跨平台最佳实践

  • 性能可移植性:抽象策略
  • 为多芯片环境构建共享调优管道
  • 示例:在Ascend、Biren与MLU上调优物件检测模型

总结与下一步

要求

  • 具备AI模型训练或部署流水线的工作经验
  • 理解GPU/MLU计算原理和模型优化
  • 对性能分析工具和指标有基本了解

受众

  • 性能工程师
  • 机器学习基础设施团队
  • AI系统架构师
 21 小时

即将举行的公开课程

课程分类