感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
自定义算子开发简介
- 为什么要构建自定义算子?用例与限制
- CANN 运行时结构与算子集成点
- TBE、TIK 和 TVM 在华为 AI 生态系统中的概述
使用 TIK 进行低层算子开发 Programming
- 理解 TIK 编程模型及支持的 API
- TIK 中的内存管理与分片策略
- 使用 CANN 创建、编译并注册自定义算子
测试与验证自定义算子
- 在图中进行算子的单元测试与集成测试
- 调试内核级性能问题
- 可视化算子执行与缓冲区行为
基于 TVM 的调度与优化
- TVM 作为张量算子编译器的概述
- 在 TVM 中为自定义算子编写调度
- TVM 的调优、基准测试及 Ascend 代码生成
与框架和模型的集成
- 为 MindSpore 和 ONNX 注册自定义算子
- 验证模型完整性与回退行为
- 支持混合精度的多算子图
案例研究与专项优化
- 案例研究:针对小输入形状的高效卷积
- 案例研究:内存感知的注意力算子优化
- 跨设备部署自定义算子的最佳实践
总结与下一步
要求
- 深入了解AI模型内部结构和算子级计算
- 具备Python和Linux开发环境的经验
- 熟悉神经网络编译器或图级优化器
受众
- 从事AI工具链的编译器工程师
- 专注于底层AI优化的系统开发者
- 构建自定义算子或针对新型AI工作负载的开发者
14 小时