GPU编程 - OpenCL vs CUDA vs ROCm 培训

GPU编程是一种利用GPU的并行处理能力来加速需要高性能计算的应用的技术，例如人工智能、游戏、图形和科学计算。有多种框架支持GPU编程，每种框架都有其优缺点。OpenCL是一个开放标准，可用于编程不同厂商的CPU、GPU和其他设备，而CUDA专用于NVIDIA GPU。ROCm是一个支持AMD GPU编程的平台，同时提供与CUDA和OpenCL的兼容性。

本次由讲师指导的培训（线上或线下）面向初学者到中级开发者，旨在帮助他们使用不同的GPU编程框架，并比较其特性、性能和兼容性。

培训结束后，参与者将能够：

设置包含OpenCL SDK、CUDA Toolkit、ROCm平台、支持OpenCL、CUDA或ROCm的设备以及Visual Studio Code的开发环境。
使用OpenCL、CUDA和ROCm创建一个执行向量加法的基本GPU程序，并比较每个框架的语法、结构和执行方式。
使用各自的API查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核并同步线程。
使用各自的语言编写在设备上执行并操作数据的内核。
使用各自的内置函数、变量和库来执行常见任务和操作。
使用各自的内存空间（如全局、本地、常量和私有）来优化数据传输和内存访问。
使用各自的执行模型来控制定义并行性的线程、块和网格。
使用CodeXL、CUDA-GDB、CUDA-MEMCHECK和NVIDIA Nsight等工具调试和测试GPU程序。
使用合并、缓存、预取和分析等技术优化GPU程序。

课程形式

互动式讲座和讨论。
大量练习和实践。
在实验环境中进行实际操作。

课程定制选项

如需为本课程定制培训，请联系我们安排。

感谢您发送咨询！我们的团队成员将很快与您联系。

感谢您发送预订！我们的团队成员将很快与您联系。

课程大纲

介绍

什么是GPU编程？
为什么要使用GPU编程？
GPU编程的挑战和权衡是什么？
GPU编程的框架有哪些？
为您的应用程序选择正确的框架

OpenCL

什么是OpenCL？
OpenCL的优缺点是什么？
设置OpenCL的开发环境
创建一个执行向量加法的基本OpenCL程序
使用OpenCL API查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核并同步线程
使用OpenCL C语言编写在设备上执行并操作数据的内核
使用OpenCL内置函数、变量和库来执行常见任务和操作
使用OpenCL内存空间（如全局、本地、常量和私有）来优化数据传输和内存访问
使用OpenCL执行模型来控制定义并行性的工作项、工作组和ND范围
使用CodeXL等工具调试和测试OpenCL程序
使用合并、缓存、预取和分析等技术优化OpenCL程序

CUDA

什么是CUDA？
CUDA的优缺点是什么？
设置CUDA的开发环境
创建一个执行向量加法的基本CUDA程序
使用CUDA API查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核并同步线程
使用CUDA C/C++语言编写在设备上执行并操作数据的内核
使用CUDA内置函数、变量和库来执行常见任务和操作
使用CUDA内存空间（如全局、共享、常量和本地）来优化数据传输和内存访问
使用CUDA执行模型来控制定义并行性的线程、块和网格
使用CUDA-GDB、CUDA-MEMCHECK和NVIDIA Nsight等工具调试和测试CUDA程序
使用合并、缓存、预取和分析等技术优化CUDA程序

ROCm

什么是ROCm？
ROCm的优缺点是什么？
设置ROCm的开发环境
创建一个执行向量加法的基本ROCm程序
使用ROCm API查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核并同步线程
使用ROCm C/C++语言编写在设备上执行并操作数据的内核
使用ROCm内置函数、变量和库来执行常见任务和操作
使用ROCm内存空间（如全局、本地、常量和私有）来优化数据传输和内存访问
使用ROCm执行模型来控制定义并行性的线程、块和网格
使用ROCm调试器和ROCm分析器等工具调试和测试ROCm程序
使用合并、缓存、预取和分析等技术优化ROCm程序

比较

比较OpenCL、CUDA和ROCm的特性、性能和兼容性
使用基准测试和指标评估GPU程序
学习GPU编程的最佳实践和技巧
探索GPU编程的当前和未来趋势与挑战

总结与下一步

要求

了解C/C++语言和并行编程概念
具备计算机架构和内存层次结构的基础知识
有使用命令行工具和代码编辑器的经验

受众

希望学习如何使用不同框架进行GPU编程并比较其特性、性能和兼容性的开发者
希望编写可在不同平台和设备上运行的便携且可扩展代码的开发者
希望探索GPU编程和优化的权衡与挑战的程序员

28 小时

需要帮助选择合适的课程吗？
china@nobleprog.com 或拨打 400 6116 540

GPU编程 - OpenCL vs CUDA vs ROCm 培训

课程大纲

要求

即将举行的公开课程

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

课程分类

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

GPU编程 - OpenCL vs CUDA vs ROCm 培训

课程大纲

要求

即将举行的公开课程

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

GPU编程 - OpenCL vs CUDA vs ROCm

相关课程

使用华为Ascend和CANN开发AI应用

使用CANN和Ascend AI处理器部署AI模型

AI Inference and Deployment with CloudMatrix

GPU Programming 关于Biren AI加速器

Cambricon MLU Development with BANGPy and Neuware

CANN AI 框架开发者入门

CANN 用于 Edge AI 部署

理解华为AI计算堆叠：从CANN到MindSpore

使用CANN SDK优化神经网络性能

CANN SDK用于计算机视觉与自然语言处理管道

使用CANN TIK和TVM构建自定义AI算子

Migrating CUDA Applications to Chinese GPU Architectures

Performance Optimization on Ascend, Biren, and Cambricon

课程分类

GPU

该网站在其他国家/地区

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites