课程大纲

自定义算子开发简介

  • 为什么要构建自定义算子?用例与限制
  • CANN 运行时结构与算子集成点
  • TBE、TIK 和 TVM 在华为 AI 生态系统中的概述

使用 TIK 进行低层算子开发 Programming

  • 理解 TIK 编程模型及支持的 API
  • TIK 中的内存管理与分片策略
  • 使用 CANN 创建、编译并注册自定义算子

测试与验证自定义算子

  • 在图中进行算子的单元测试与集成测试
  • 调试内核级性能问题
  • 可视化算子执行与缓冲区行为

基于 TVM 的调度与优化

  • TVM 作为张量算子编译器的概述
  • 在 TVM 中为自定义算子编写调度
  • TVM 的调优、基准测试及 Ascend 代码生成

与框架和模型的集成

  • 为 MindSpore 和 ONNX 注册自定义算子
  • 验证模型完整性与回退行为
  • 支持混合精度的多算子图

案例研究与专项优化

  • 案例研究:针对小输入形状的高效卷积
  • 案例研究:内存感知的注意力算子优化
  • 跨设备部署自定义算子的最佳实践

总结与下一步

要求

  • 深入了解AI模型内部结构和算子级计算
  • 具备Python和Linux开发环境的经验
  • 熟悉神经网络编译器或图级优化器

受众

  • 从事AI工具链的编译器工程师
  • 专注于底层AI优化的系统开发者
  • 构建自定义算子或针对新型AI工作负载的开发者
 14 小时

即将举行的公开课程

课程分类