Performance Optimization on Ascend, Biren, and Cambricon 培训
Ascend、Biren 和 Cambricon 是中国领先的 AI 硬体平台,各自提供独特的加速和性能分析工具,用于生产规模的 AI 工作负载。
这项由讲师指导的培训(线上或线下)针对高级 AI 基础设施和性能工程师,旨在优化跨多个中国 AI 晶片平台的模型推理和训练工作流程。
在培训结束时,参与者将能够:
- 在 Ascend、Biren 和 Cambricon 平台上进行模型基准测试。
- 识别系统瓶颈和记忆体/计算效率低下的问题。
- 应用图层级、核心层级和操作层级的优化。
- 调整部署管道以提高吞吐量和减少延迟。
课程形式
- 互动式讲座和讨论。
- 在每个平台上实际使用性能分析和优化工具。
- 专注于实际调整情境的指导练习。
课程定制选项
- 如需根据您的性能环境或模型类型定制此课程,请联系我们安排。
课程大纲
性能概念与指标
- 延迟、吞吐量、功耗、资源利用率
- 系统与模型层级的瓶颈
- 推理与训练的性能分析
在Huawei Ascend上的性能分析
- 使用CANN Profiler和MindInsight
- 内核与运算元诊断
- 卸载模式与内存映射
在Biren GPU上的性能分析
- Biren SDK的性能监控功能
- 内核融合、内存对齐与执行队列
- 功耗与温度感知的性能分析
在Cambricon MLU上的性能分析
- BANGPy与Neuware性能工具
- 内核级别的可视化与日志解读
- MLU性能分析工具与部署框架的集成
图与模型层级优化
- 图剪枝与量化策略
- 运算元融合与计算图重构
- 输入尺寸标准化与批次调优
内存与内核优化
- 优化内存布局与重用
- 跨芯片组的高效缓存管理
- 基于平台的内核级调优技术
跨平台最佳实践
- 性能可移植性:抽象策略
- 为多芯片环境构建共享调优管道
- 示例:在Ascend、Biren与MLU上调优物件检测模型
总结与下一步
要求
- 具备AI模型训练或部署流水线的工作经验
- 理解GPU/MLU计算原理和模型优化
- 对性能分析工具和指标有基本了解
受众
- 性能工程师
- 机器学习基础设施团队
- AI系统架构师
需要帮助选择合适的课程吗?
Performance Optimization on Ascend, Biren, and Cambricon 培训 - Enquiry
Performance Optimization on Ascend, Biren, and Cambricon - 问询
问询
即将举行的公开课程
相关课程
Developing AI Applications with Huawei Ascend and CANN
21 小时Huawei Ascend 是一系列专为高性能推理和训练设计的AI处理器。
本课程为讲师指导的培训(线上或线下),面向中级AI工程师和数据科学家,旨在帮助他们使用华为的Ascend平台和CANN工具包开发和优化神经网络模型。
在本培训结束时,参与者将能够:
- 设置和配置CANN开发环境。
- 使用MindSpore和CloudMatrix工作流开发AI应用。
- 使用自定义运算符和分块优化Ascend NPU的性能。
- 将模型部署到边缘或云环境。
课程形式
- 互动讲座和讨论。
- 在示例应用中动手使用Huawei Ascend和CANN工具包。
- 专注于模型构建、训练和部署的指导练习。
课程定制选项
- 如需根据您的基础设施或数据集定制本课程,请联系我们安排。
Deploying AI Models with CANN and Ascend AI Processors
14 小时CANN(Neural Networks的计算架构)是华为的AI计算堆栈,用于在Ascend AI处理器上部署和优化AI模型。
本课程由讲师指导,提供线下或线上培训,面向中级AI开发人员和工程师,他们希望使用CANN工具包及MindSpore、TensorFlow或PyTorch等工具,将训练好的AI模型高效部署到Huawei Ascend硬件上。
通过本培训,学员将能够:
- 理解CANN架构及其在AI部署流程中的作用。
- 将来自流行框架的模型转换并适配为Ascend兼容格式。
- 使用ATC、OM模型转换和MindSpore等工具进行边缘和云端推理。
- 诊断部署问题并优化Ascend硬件的性能。
课程形式
- 互动式讲座与演示。
- 使用CANN工具和Ascend模拟器或设备进行动手实验。
- 基于真实AI模型的实践部署场景。
课程定制选项
- 如需为本课程定制培训,请联系我们安排。
AI Inference and Deployment with CloudMatrix
21 小时CloudMatrix 是华为统一的 AI 开发和部署平台,旨在支持可扩展的生产级推理管道。
这项由讲师指导的培训(线上或线下)面向希望使用 CloudMatrix 平台(整合 CANN 和 MindSpore)部署和监控 AI 模型的初级到中级 AI 专业人士。
培训结束后,参与者将能够:
- 使用 CloudMatrix 进行模型封装、部署和服务。
- 为 Ascend 芯片组转换和优化模型。
- 为即时和批量推理任务设置管道。
- 在生产环境中监控部署并调整性能。
课程形式
- 互动式讲座和讨论。
- 使用 CloudMatrix 进行实际部署场景的实操。
- 专注于转换、优化和扩展的指导练习。
课程定制选项
- 如需根据您的 AI 基础设施或云环境定制此课程,请联系我们安排。
GPU Programming on Biren AI Accelerators
21 小时Biren AI Accelerators are high-performance GPUs designed for AI and HPC workloads with support for large-scale training and inference.
This instructor-led, live training (online or onsite) is aimed at intermediate-level to advanced-level developers who wish to program and optimize applications using Biren’s proprietary GPU stack, with practical comparisons to CUDA-based environments.
By the end of this training, participants will be able to:
- Understand Biren GPU architecture and memory hierarchy.
- Set up the development environment and use Biren’s programming model.
- Translate and optimize CUDA-style code for Biren platforms.
- Apply performance tuning and debugging techniques.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of Biren SDK in sample GPU workloads.
- Guided exercises focused on porting and performance tuning.
Course Customization Options
- To request a customized training for this course based on your application stack or integration needs, please contact us to arrange.
Cambricon MLU Development with BANGPy and Neuware
21 小时Cambricon MLUs(Machine Learning单元)是专为边缘和数据中心场景中的推理和训练优化的AI芯片。
本次由讲师指导的培训(线上或线下)面向中级开发者,旨在帮助他们使用BANGPy框架和Neuware SDK在Cambricon MLU硬件上构建和部署AI模型。
通过本次培训,参与者将能够:
- 设置和配置BANGPy与Neuware开发环境。
- 为Cambricon MLUs开发和优化基于Python和C++的模型。
- 将模型部署到运行Neuware运行时的边缘和数据中心设备。
- 将机器学习工作流与MLU特定的加速功能集成。
课程形式
- 互动式讲座和讨论。
- 动手实践BANGPy和Neuware进行开发和部署。
- 专注于优化、集成和测试的指导练习。
课程定制选项
- 如需根据您的Cambricon设备型号或使用场景定制本课程,请联系我们安排。
Introduction to CANN for AI Framework Developers
7 小时CANN for Edge AI Deployment
14 小时华为的Ascend CANN工具包能够在边缘设备(如Ascend 310)上实现强大的AI推理。CANN提供了在计算和内存受限的环境中编译、优化和部署模型的必要工具。
这项由讲师指导的培训(线上或线下)针对希望使用CANN工具链在Ascend边缘设备上部署和优化模型的中级AI开发者和集成商。
在培训结束时,参与者将能够:
- 使用CANN工具为Ascend 310准备和转换AI模型。
- 使用MindSpore Lite和AscendCL构建轻量级推理管道。
- 在计算和内存有限的环境中优化模型性能。
- 在实际边缘用例中部署和监控AI应用程序。
课程形式
- 互动式讲座和演示。
- 针对边缘特定模型和场景的动手实验。
- 在虚拟或物理边缘硬件上的即时部署示例。
课程定制选项
- 如需为本课程定制培训,请联系我们进行安排。
Understanding Huawei’s AI Compute Stack: From CANN to MindSpore
14 小时Optimizing Neural Network Performance with CANN SDK
14 小时CANN SDK(Neural Networks 的计算架构)是华为的 AI 计算基础,允许开发者在 Ascend AI 处理器上微调和优化已部署的神经网络性能。
这是一个由讲师主导的培训(线上或线下),旨在针对高级 AI 开发者和系统工程师,他们希望使用 CANN 的先进工具集(包括 Graph Engine、TIK 和自定义算子开发)来优化推理性能。
培训结束时,参与者将能够:
- 了解 CANN 的运行时架构和性能生命周期。
- 使用性能分析工具和 Graph Engine 进行性能分析和优化。
- 使用 TIK 和 TVM 创建和优化自定义算子。
- 解决内存瓶颈并提高模型吞吐量。
课程形式
- 互动式讲座和讨论。
- 实时性能分析和算子调优的实践实验室。
- 使用边缘案例部署示例的优化练习。
课程定制选项
- 如需为此课程请求定制培训,请联系我们进行安排。
CANN SDK for Computer Vision and NLP Pipelines
14 小时CANN SDK(Neural Networks 的计算架构)为计算机视觉和自然语言处理(NLP)中的实时AI应用提供了强大的部署和优化工具,特别是在Huawei Ascend硬件上。
本课程为讲师指导的培训(线上或线下),面向中级AI从业者,旨在帮助他们使用CANN SDK构建、部署和优化视觉与语言模型,以应对实际生产用例。
培训结束后,学员将能够:
- 使用CANN和AscendCL部署和优化CV与NLP模型。
- 使用CANN工具转换模型并将其集成到实时管道中。
- 优化检测、分类和情感分析等任务的推理性能。
- 为边缘或云端部署场景构建实时CV/NLP管道。
课程形式
- 互动讲座与演示。
- 动手实验:模型部署与性能分析。
- 使用真实CV和NLP用例设计实时管道。
课程定制选项
- 如需为本课程定制培训,请联系我们进行安排。
Building Custom AI Operators with CANN TIK and TVM
14 小时CANN TIK (Tensor Instruction Kernel) 和 Apache TVM 能够为 Huawei Ascend 硬件实现 AI 模型算子的高级优化和定制。
这门由讲师指导的培训(线上或线下)面向希望使用 CANN 的 TIK 编程模型和 TVM 编译器集成来构建、部署和调优 AI 模型自定义算子的高级系统开发者。
培训结束后,参与者将能够:
- 使用 TIK DSL 为 Ascend 处理器编写和测试自定义 AI 算子。
- 将自定义算子集成到 CANN 运行时和执行图中。
- 使用 TVM 进行算子调度、自动调优和基准测试。
- 调试和优化自定义计算模式的指令级性能。
课程形式
- 互动讲座和演示。
- 使用 TIK 和 TVM 管道进行算子编码实践。
- 在 Ascend 硬件或模拟器上进行测试和调优。
课程定制选项
- 如需为此课程定制培训,请联系我们安排。
Migrating CUDA Applications to Chinese GPU Architectures
21 小时中国的GPU架构,如Huawei Ascend、Biren和Cambricon MLU,提供了专为本地AI和HPC市场量身定制的CUDA替代方案。
这项由讲师指导的培训(线上或线下)旨在为高级GPU程式设计师和基础设施专家提供迁移和优化现有CUDA应用程序,以便在中国硬件平台上部署的能力。
培训结束后,参与者将能够:
- 评估现有CUDA工作负载与中国芯片替代方案的兼容性。
- 将CUDA代码库移植到华为CANN、Biren SDK和Cambricon BANGPy环境中。
- 比较性能并识别跨平台的优化点。
- 解决跨架构支持和部署中的实际挑战。
课程形式
- 互动式讲座和讨论。
- 实践代码翻译和性能比较实验。
- 专注于多GPU适应策略的指导练习。
课程定制选项
- 如需根据您的平台或CUDA项目定制培训,请联系我们安排。