主页
计算机图形学培训
GPU培训
NVIDIA GPU 编程 - 扩展培训

NVIDIA GPU 编程 - 扩展培训

(1 客户评论)

本课程为讲师指导的线下培训，涵盖如何为并行计算编程GPU，如何使用各种平台，如何利用CUDA平台及其功能，以及如何使用CUDA执行各种优化技术。应用领域包括深度学习、分析、图像处理和工程应用。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

介绍

了解异构计算方法的基础知识

为什么选择并行计算？了解并行计算的需求

多核处理器 - 架构和设计

线程简介、线程基础和并行基本概念 Programming

了解 GPU 软件优化过程的基础知识

OpenMP - 基于指令的并行标准 Programming

动手实践/演示多核机器上的各种程序

GPU 计算简介

GPUs 用于并行计算

图形处理器 Programming 型号

动手实践/演示各种程序 GPU

GPU 的 SDK、工具包和环境安装

使用各种库

演示 GPU 和工具以及示例程序和 OpenACC

了解 CUDA Programming 模型

学习 CUDA 架构

探索和设置 CUDA 开发环境

使用 CUDA 运行时 API

了解 CUDA 内存模型

探索其他 CUDA API 功能

Access在 CUDA 中高效处理全局内存：全局内存优化

使用 CUDA 流优化 CUDA 中的数据传输

在 CUDA 中使用共享内存

了解和使用 CUDA 中的原子操作和指令

案例研究：使用 CUDA 进行基本数字图像处理

使用多 GPU Programming

NVIDIA / CUDA上的高级硬件分析和采样

使用 CUDA 动态并行 API 进行动态内核启动

总结和结论

要求

丙 Programming
Linux GCC协议

21 小时

需要帮助选择合适的课程吗？
china@nobleprog.com 或拨打 400 6116 540

NVIDIA GPU 编程 - 扩展培训 - 询价

全名 *

邮件 *

电话 *

人数

公司名称

公司地址

您想以何种方式参加课程？

客户场所

线上

课堂

通知我有关折扣和促销的信息

请阅读我们的隐私政策，以了解我们如何使用您的数据。

NVIDIA GPU 编程 - 扩展 - 问询

全名 *

电话 *

邮件 *

公司名称

咨询主题 *

咨询目标

咨询师将会和什么人合作

紧急咨询服务 *

通知我有关折扣和促销的信息

请阅读我们的隐私政策，以了解我们如何使用您的数据。

客户评论 (1)

培训师的活力和幽默感。

Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.

课程 - NVIDIA GPU Programming - Extended

机器翻译

即将举行的公开课程

NVIDIA GPU 编程 - 扩展

2026-09-07 09:30

21 小时

天津 - 天津中心

NVIDIA GPU 编程 - 扩展

2026-09-21 09:30

21 小时

重庆 - 环球金融中心

NVIDIA GPU 编程 - 扩展

2026-10-05 09:30

21 小时

成都 - 时代广场

NVIDIA GPU 编程 - 扩展

2026-10-19 09:30

21 小时

浙江杭州-恒褀商务中心4幢

NVIDIA GPU 编程 - 扩展

2026-11-02 09:30

21 小时

浙江 - 外经贸广场

使用华为Ascend和CANN开发AI应用

21 小时

Huawei Ascend是一系列专为高性能推理和训练设计的AI处理器。

本次由讲师指导的培训（线上或线下）面向中级AI工程师和数据科学家，旨在帮助他们使用华为Ascend平台和CANN工具包开发和优化神经网络模型。

培训结束后，参与者将能够：

设置和配置CANN开发环境。
使用MindSpore和CloudMatrix工作流开发AI应用。
使用自定义算子和分块优化Ascend NPU的性能。
将模型部署到边缘或云环境。

课程形式

互动式讲座和讨论。
在示例应用中动手使用华为Ascend和CANN工具包。
专注于模型构建、训练和部署的指导练习。

课程定制选项

如需根据您的基础设施或数据集定制本课程，请联系我们安排。

使用CANN和Ascend AI处理器部署AI模型

14 小时

CANN（Neural Networks计算架构）是华为的AI计算堆栈，用于在Ascend AI处理器上部署和优化AI模型。

本次由讲师指导的培训（线上或线下）面向中级AI开发人员和工程师，旨在帮助他们使用CANN工具包及MindSpore、TensorFlow或PyTorch等工具，将训练好的AI模型高效部署到Huawei Ascend硬件上。

通过本次培训，学员将能够：

了解CANN架构及其在AI部署流程中的作用。
将来自流行框架的模型转换为与Ascend兼容的格式。
使用ATC、OM模型转换和MindSpore等工具进行边缘和云端推理。
诊断部署问题并优化Ascend硬件上的性能。

课程形式

互动式讲座和演示。
使用CANN工具和Ascend模拟器或设备进行动手实验。
基于真实AI模型的实际部署场景。

课程定制选项

如需为本课程定制培训，请联系我们安排。

AI Inference and Deployment with CloudMatrix

21 小时

CloudMatrix 是华为统一的 AI 开发和部署平台，旨在支持可扩展的生产级推理管道。

本课程由讲师主导，采用线上或线下培训形式，面向初级到中级 AI 专业人员，帮助他们使用 CloudMatrix 平台与 CANN 和 MindSpore 集成来部署和监控 AI 模型。

在培训结束时，参与者将能够：

使用 CloudMatrix 进行模型打包、部署和服务。
转换和优化模型以适应 Ascend 芯片组。
为实时和批量推理任务设置管道。
在生产环境中监控部署并调整性能。

课程形式

互动式讲座和讨论。
在实际部署场景中动手使用 CloudMatrix。
专注于转换、优化和扩展的指导练习。

课程定制选项

如需根据您的 AI 基础设施或云环境定制本课程，请联系我们进行安排。

GPU Programming 关于Biren AI加速器

21 小时

Biren AI 加速器是专为 AI 和高性能计算（HPC）工作负载设计的高性能 GPU，支持大规模训练和推理。

本课程为讲师主导的培训（线上或线下），面向中级到高级开发者，旨在教授如何使用 Biren 的专有 GPU 栈进行编程和优化，并与基于 CUDA 的环境进行实际对比。

在本课程结束时，学员将能够：

理解 Biren GPU 架构和内存层次结构。
搭建开发环境并使用 Biren 的编程模型。
转换并优化基于 CUDA 的代码以适用于 Biren 平台。
应用性能调优和调试技术。

课程形式

互动式讲座与讨论。
在示例 GPU 工作负载中实践使用 Biren SDK。
专注于移植和性能调优的指导练习。

课程定制选项

如需根据您的应用栈或集成需求定制本课程，请联系我们安排。

Cambricon MLU Development with BANGPy and Neuware

21 小时

Cambricon MLUs（Machine Learning单元）是专为边缘和数据中心场景中的推理和训练优化的AI芯片。

本次由讲师指导的培训（线上或线下）面向中级开发者，旨在帮助他们使用BANGPy框架和Neuware SDK在Cambricon MLU硬件上构建和部署AI模型。

通过本次培训，参与者将能够：

设置和配置BANGPy与Neuware开发环境。
为Cambricon MLUs开发和优化基于Python和C++的模型。
将模型部署到运行Neuware运行时的边缘和数据中心设备。
将机器学习工作流与MLU特定的加速功能集成。

课程形式

互动式讲座和讨论。
动手实践BANGPy和Neuware进行开发和部署。
专注于优化、集成和测试的指导练习。

课程定制选项

如需根据您的Cambricon设备型号或使用场景定制本课程，请联系我们安排。

CANN AI 框架开发者入门

7 小时

CANN（Neural Networks的计算架构）是华为的AI计算工具包，用于在Ascend AI处理器上编译、优化和部署AI模型。

本次由讲师指导的培训（线上或线下）面向初级的AI开发者，旨在帮助他们了解CANN如何融入从训练到部署的模型生命周期，以及它如何与MindSpore、TensorFlow和PyTorch等框架协作。

在培训结束时，参与者将能够：

理解CANN工具包的用途和架构。
搭建包含CANN和MindSpore的开发环境。
将简单的AI模型转换并部署到Ascend硬件上。
为未来的CANN优化或集成项目打下基础。

课程形式

互动式讲座和讨论。
实践实验，包含简单模型部署。
逐步讲解CANN工具链和集成点。

课程定制选项

如需定制本课程，请联系我们安排。

CANN 用于 Edge AI 部署

14 小时

华为的Ascend CANN工具包能够在边缘设备（如Ascend 310）上实现强大的AI推理。CANN提供了在计算和内存受限的环境中编译、优化和部署模型所需的必要工具。

本次由讲师指导的培训（线上或线下）面向希望使用CANN工具链在Ascend边缘设备上部署和优化模型的中级AI开发人员和集成人员。

培训结束后，学员将能够：

使用CANN工具为Ascend 310准备和转换AI模型。
使用MindSpore Lite和AscendCL构建轻量级推理管道。
在计算和内存受限的环境中优化模型性能。
在实际边缘用例中部署和监控AI应用。

课程形式

互动讲座与演示。
针对边缘特定模型和场景的实践操作。
在虚拟或物理边缘硬件上进行实时部署示例。

课程定制选项

如需为本课程定制培训，请联系我们进行安排。

理解华为AI计算堆叠：从CANN到MindSpore

14 小时

华为的AI技术栈——从底层的CANN SDK到高层的MindSpore框架——提供了一个紧密集成的AI开发和部署环境，专为Ascend硬件优化。

本次由讲师指导的培训（线上或线下）面向初级到中级的技术专业人员，旨在帮助他们理解CANN和MindSpore组件如何协同工作，以支持AI生命周期管理和基础设施决策。

培训结束后，学员将能够：

理解华为AI计算栈的分层架构。
了解CANN如何支持模型优化和硬件级部署。
评估MindSpore框架和工具链，并与行业替代方案进行比较。
将华为的AI技术栈定位到企业或云/本地环境中。

课程形式

互动讲座与讨论。
实时系统演示和基于案例的讲解。
可选的指导实验，涵盖从MindSpore到CANN的模型流程。

课程定制选项

如需为本课程定制培训，请联系我们安排。

使用CANN SDK优化神经网络性能

14 小时

CANN SDK（Neural Networks 的计算架构）是华为的 AI 计算基础，允许开发者在 Ascend AI 处理器上微调和优化已部署的神经网络性能。

这是一个由讲师主导的培训（线上或线下），旨在针对高级 AI 开发者和系统工程师，他们希望使用 CANN 的先进工具集（包括 Graph Engine、TIK 和自定义算子开发）来优化推理性能。

培训结束时，参与者将能够：

了解 CANN 的运行时架构和性能生命周期。
使用性能分析工具和 Graph Engine 进行性能分析和优化。
使用 TIK 和 TVM 创建和优化自定义算子。
解决内存瓶颈并提高模型吞吐量。

课程形式

互动式讲座和讨论。
实时性能分析和算子调优的实践实验室。
使用边缘案例部署示例的优化练习。

课程定制选项

如需为此课程请求定制培训，请联系我们进行安排。

CANN SDK用于计算机视觉与自然语言处理管道

14 小时

CANN SDK（神经网络计算架构）为计算机视觉和自然语言处理中的实时AI应用提供了强大的部署和优化工具，尤其是在华为Ascend硬件上。

本次由讲师主导的培训（线上或线下）面向中级AI从业者，旨在帮助他们使用CANN SDK构建、部署和优化视觉与语言模型，以用于实际生产场景。

培训结束后，学员将能够：

使用CANN和AscendCL部署和优化CV与NLP模型。
使用CANN工具转换模型，并将其集成到实时管道中。
优化检测、分类和情感分析等任务的推理性能。
为边缘或云端部署场景构建实时CV/NLP管道。

课程形式

互动式讲座与演示。
动手实验，包括模型部署与性能分析。
使用实际CV和NLP用例设计实时管道。

课程定制选项

如需定制本课程，请联系我们安排。

使用CANN TIK和TVM构建自定义AI算子

14 小时

CANN TIK（张量指令内核）和Apache TVM能够对Huawei Ascend硬件的AI模型操作符进行高级优化和定制。

本次由讲师指导的培训（线上或线下）面向高级系统开发者，旨在帮助他们使用CANN的TIK编程模型和TVM编译器集成，构建、部署和调优AI模型的自定义操作符。

培训结束后，参与者将能够：

使用TIK DSL为Ascend处理器编写和测试自定义AI操作符。
将自定义操作符集成到CANN运行时和执行图中。
使用TVM进行操作符调度、自动调优和基准测试。
调试和优化自定义计算模式的指令级性能。

课程形式

互动讲座与演示。
使用TIK和TVM管道进行实际操作符编码。
在Ascend硬件或模拟器上进行测试和调优。

课程定制选项

如需为本课程定制培训，请联系我们安排。

Migrating CUDA Applications to Chinese GPU Architectures

21 小时

中国的GPU架构，如Huawei Ascend、Biren和Cambricon MLU，提供了专为本地AI和HPC市场量身定制的CUDA替代方案。

这项由讲师指导的培训（线上或线下）旨在为高级GPU程式设计师和基础设施专家提供迁移和优化现有CUDA应用程序，以便在中国硬件平台上部署的能力。

培训结束后，参与者将能够：

评估现有CUDA工作负载与中国芯片替代方案的兼容性。
将CUDA代码库移植到华为CANN、Biren SDK和Cambricon BANGPy环境中。
比较性能并识别跨平台的优化点。
解决跨架构支持和部署中的实际挑战。

课程形式

互动式讲座和讨论。
实践代码翻译和性能比较实验。
专注于多GPU适应策略的指导练习。

课程定制选项

如需根据您的平台或CUDA项目定制培训，请联系我们安排。

Performance Optimization on Ascend, Biren, and Cambricon

21 小时

Ascend、Biren 和 Cambricon 是中国领先的 AI 硬体平台，各自提供独特的加速和性能分析工具，用于生产规模的 AI 工作负载。

这项由讲师指导的培训（线上或线下）针对高级 AI 基础设施和性能工程师，旨在优化跨多个中国 AI 晶片平台的模型推理和训练工作流程。

在培训结束时，参与者将能够：

在 Ascend、Biren 和 Cambricon 平台上进行模型基准测试。
识别系统瓶颈和记忆体/计算效率低下的问题。
应用图层级、核心层级和操作层级的优化。
调整部署管道以提高吞吐量和减少延迟。

课程形式

互动式讲座和讨论。
在每个平台上实际使用性能分析和优化工具。
专注于实际调整情境的指导练习。

课程定制选项

如需根据您的性能环境或模型类型定制此课程，请联系我们安排。

课程分类

NVIDIA GPU 编程 - 扩展培训

课程大纲

要求

客户评论 (1)

Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.

课程 - NVIDIA GPU Programming - Extended

即将举行的公开课程

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

课程分类

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

NVIDIA GPU 编程 - 扩展 培训

课程大纲

要求

客户评论 (1)

Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.

课程 - NVIDIA GPU Programming - Extended

即将举行的公开课程

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

NVIDIA GPU 编程 - 扩展

相关课程

使用华为Ascend和CANN开发AI应用

使用CANN和Ascend AI处理器部署AI模型

AI Inference and Deployment with CloudMatrix

GPU Programming 关于Biren AI加速器

Cambricon MLU Development with BANGPy and Neuware

CANN AI 框架开发者入门

CANN 用于 Edge AI 部署

理解华为AI计算堆叠：从CANN到MindSpore

使用CANN SDK优化神经网络性能

CANN SDK用于计算机视觉与自然语言处理管道

使用CANN TIK和TVM构建自定义AI算子

Migrating CUDA Applications to Chinese GPU Architectures

Performance Optimization on Ascend, Biren, and Cambricon

课程分类

GPU

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

NVIDIA GPU 编程 - 扩展培训