NVIDIA GPU Programming - Extended 培训
这个讲师主导的现场培训课程包括如何为并行计算编程GPU ,如何使用各种平台,如何使用CUDA平台及其功能,以及如何使用CUDA执行各种优化技术。一些应用程序包括深度学习,分析,图像处理和工程应用程序。
课程大纲
介绍
了解异构计算方法的基础知识
为什么选择并行计算?了解并行计算的需求
多核处理器 - 架构和设计
线程简介、线程基础和并行基本概念 Programming
了解 GPU 软件优化过程的基础知识
OpenMP - 基于指令的并行标准 Programming
动手实践/演示多核机器上的各种程序
GPU 计算简介
GPUs 用于并行计算
图形处理器 Programming 型号
动手实践/演示各种程序 GPU
GPU 的 SDK、工具包和环境安装
使用各种库
演示 GPU 和工具以及示例程序和 OpenACC
了解 CUDA Programming 模型
学习 CUDA 架构
探索和设置 CUDA 开发环境
使用 CUDA 运行时 API
了解 CUDA 内存模型
探索其他 CUDA API 功能
Access在 CUDA 中高效处理全局内存:全局内存优化
使用 CUDA 流优化 CUDA 中的数据传输
在 CUDA 中使用共享内存
了解和使用 CUDA 中的原子操作和指令
案例研究:使用 CUDA 进行基本数字图像处理
使用多 GPU Programming
NVIDIA / CUDA上的高级硬件分析和采样
使用 CUDA 动态并行 API 进行动态内核启动
总结和结论
要求
- 丙 Programming
- Linux GCC协议
需要帮助选择合适的课程吗?
china@nobleprog.com 或拨打 400 6116 540
NVIDIA GPU Programming - Extended 培训 - Enquiry
NVIDIA GPU Programming - Extended - 问询
问询
客户评论 (1)
培训师精力充沛,幽默风趣。
Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.
课程 - NVIDIA GPU Programming - Extended
机器翻译
即将举行的公开课程
相关课程
AMD GPU Programming
28 小时这种以讲师为主导的中国现场现场培训面向希望使用ROCm和HIP对AMD GPU进行编程并利用其并行性的初级到中级开发人员。
在培训结束时,参与者将能够:
- 设置包含 ROCm 平台、AMD GPU 和 Visual Studio 代码的开发环境。
- 创建一个基本的 ROCm 程序,该程序对 GPU 执行向量加法并从 GPU 存储器中检索结果。
- 使用 ROCm API 查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核和同步线程。
- 使用 HIP 语言编写在 GPU 上执行的内核并操作数据。
- 使用 HIP 内置函数、变量和库来执行常见任务和操作。
- 使用 ROCm 和 HIP 内存空间(如全局、共享、常量和本地)来优化数据传输和内存访问。
- 使用 ROCm 和 HIP 执行模型来控制定义并行度的线程、块和网格。
- 使用 ROCm Debugger 和 ROCm Profiler 等工具调试和测试 ROCm 和 HIP 程序。
- 使用合并、缓存、预取和分析等技术优化 ROCm 和 HIP 程序。
Administration of CUDA
35 小时这种由讲师指导的现场培训 中国(在线或远程)面向希望安装、配置、管理和排除 CUDA 环境故障的初级系统管理员和 IT 专业人员。
在培训结束时,参与者将能够:
- 了解 CUDA 的架构、组件和功能。
- 安装和配置 CUDA 环境。
- 管理和优化 CUDA 资源。
- 调试和排查常见的 CUDA 问题。
GPU Programming with CUDA and Python
14 小时这是一个由讲师指导的,在中国(线上或线下)进行的培训,针对希望使用CUDA来构建在NVIDIA GPU上并行运行的Python应用程式的中级开发者。
在培训结束时,参与者将能够:
- 使用Numba编译器来加速在NVIDIA GPU上运行的Python应用程式。
- 创建、编译并启动自定义的CUDA核心。
- 管理GPU的记忆体。
- 将基于CPU的应用程式转换为GPU加速的应用程式。
Introduction to GPU Programming
21 小时这种以讲师为主导的中国现场现场培训针对的是希望学习GPU编程基础知识以及开发GPU应用程序的主要框架和工具的初级到中级开发人员。
- 在培训结束时,参与者将能够:
了解 CPU 和 GPU 计算之间的区别以及 GPU 编程的好处和挑战。 - 为他们的 GPU 应用程序选择正确的框架和工具。
- 创建一个基本的 GPU 程序,该程序使用一个或多个框架和工具执行向量加法。
- 使用相应的 API、语言和库来查询设备信息、分配和解除分配设备内存、在主机和设备之间复制数据、启动内核以及同步线程。
- 使用相应的内存空间(如全局、本地、常量和专用)来优化数据传输和内存访问。
- 使用相应的执行模型(如工作项、工作组、线程、块和网格)来控制并行度。
- 使用 CodeXL 、 CUDA-GDB 、 CUDA-MEMCHECK 和 NVIDIA Nsight 等工具调试和测试 GPU 程序。
- 使用合并、缓存、预取和分析等技术优化 GPU 程序。
GPU Programming with CUDA
28 小时这个由 讲师指导的 中国 现场现场培训(在线或现场)面向希望使用 CUDA 对 NVIDIA GPU 进行程式设计并利用其并行性的初级到中级开发人员。
在本次培训结束时,参与者将能够:
- 设置一个开发环境,其中包括 CUDA 工具包、NVIDIA GPU 和 Visual Studio 代码。
- 创建一个基本的 CUDA 程式,该程式在 GPU 上执行向量加法并从 GPU 记忆体中检索结果。
- 使用 CUDA API 查询设备资讯、分配和释放设备记忆体、在主机和设备之间复制数据、启动内核和同步线程。
- 使用 CUDA C/C++ 语言编写在 GPU 上执行并操作数据的内核。
- 使用 CUDA 内建函数、变数和库来执行常见任务和操作。
- 使用 CUDA 记忆体空间(例如全域、共用、常量和本地)来优化数据传输和记忆体访问。
- 使用 CUDA 执行模型来控制定义并行度的线程、块和网格。
- 使用 CUDA-GDB、CUDA-MEMCHECK 和 NVIDIA Nsight 等工具调试和测试 CUDA 程式。
- 使用合并、缓存、预取和分析等技术优化 CUDA 程式。
97% de clients satisfaits.
GPU Programming with OpenACC
28 小时这种由讲师指导的现场培训中国(在线或远程)面向希望使用 OpenACC 对异构设备进行编程并利用其并行性的初级到中级开发人员。
在培训结束时,参与者将能够:
- 设置一个开发环境,其中包含 OpenACC SDK、支持 OpenACC 的设备和 Visual Studio 代码。
- 创建一个基本的 OpenACC 程序,用于在设备上执行向量加法并从设备内存中检索结果。
- 使用 OpenACC 指令和子句对代码进行注释,并指定并行区域、数据移动和优化选项。
- 使用 OpenACC API 查询设备信息、设置设备编号、处理错误和同步事件。
- 使用 OpenACC 库和互操作性功能将 OpenACC 与其他编程模型(如 CUDA、OpenMP 和 MPI)集成。
- 使用 OpenACC 工具分析和调试 OpenACC 程序,并确定性能瓶颈和机会。
- 使用数据局部性、循环融合、内核融合和自动调优等技术优化 OpenACC 程序。
GPU Programming with OpenCL
28 小时这种以讲师为主导的中国现场培训(现场或远程)面向希望使用OpenCL对异构设备进行编程并利用其并行性的初级到中级开发人员。
在培训结束时,参与者将能够:
- 设置包含 OpenCL SDK、支持 OpenCL 和 Visual Studio 代码的设备的开发环境。
- 创建一个基本的 OpenCL 程序,该程序在设备上执行矢量加法并从设备内存中检索结果。
- 使用 OpenCL API 查询设备信息、创建上下文、命令队列、缓冲区、内核和事件。
- 使用 OpenCL C 语言编写在设备上执行并操作数据的内核。
- 使用 OpenCL 内置函数、扩展和库来执行常见任务和操作。
- 使用 OpenCL 主机和设备内存模型来优化数据传输和内存访问。
- 使用 OpenCL 执行模型来控制工作项、工作组和 ND 范围。
- 使用 CodeXL、Intel VTune 和 NVIDIA Nsight 等工具调试和测试 OpenCL 程序。
- 使用矢量化、循环展开、本地内存和分析等技术优化 OpenCL 程序。
GPU Programming - OpenCL vs CUDA vs ROCm
28 小时这种以讲师为主导的中国现场现场培训针对的是希望使用不同框架进行GPU编程并比较其功能,性能和兼容性的初级到中级开发人员。
在培训结束时,参与者将能够:
- 设置一个开发环境,其中包括 OpenCL SDK、CUDA 工具包、ROCm 平台、支持 OpenCL、CUDA 或 ROCm 的设备以及 Visual Studio 代码。
- 创建一个基本的 GPU 程序,使用 OpenCL、CUDA 和 ROCm 执行向量加法,并比较每个框架的语法、结构和执行。
- 使用相应的 API 查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核以及同步线程。
- 使用相应的语言编写在设备上执行的内核并操作数据。
- 使用相应的内置函数、变量和库来执行常见任务和操作。
- 使用相应的内存空间(如全局、本地、常量和专用)来优化数据传输和内存访问。
- 使用相应的执行模型来控制定义并行度的线程、块和网格。
- 使用 CodeXL 、 CUDA-GDB 、 CUDA-MEMCHECK 和 NVIDIA Nsight 等工具调试和测试 GPU 程序。
- 使用合并、缓存、预取和分析等技术优化 GPU 程序。
ROCm for Windows
21 小时这种以讲师为主导的中国现场现场培训面向希望在Windows上安装和使用ROCm以编程AMD GPU并利用其并行性的初级到中级开发人员。
在培训结束时,参与者将能够:
- 在 Windows 上设置包含 ROCm 平台、AMD GPU 和 Visual Studio 代码的开发环境。
- 创建一个基本的 ROCm 程序,该程序对 GPU 执行向量加法并从 GPU 存储器中检索结果。
- 使用 ROCm API 查询设备信息、分配和释放设备内存、在主机和设备之间复制数据、启动内核和同步线程。
- 使用 HIP 语言编写在 GPU 上执行的内核并操作数据。
- 使用 HIP 内置函数、变量和库来执行常见任务和操作。
- 使用 ROCm 和 HIP 内存空间(如全局、共享、常量和本地)来优化数据传输和内存访问。
- 使用 ROCm 和 HIP 执行模型来控制定义并行度的线程、块和网格。
- 使用 ROCm Debugger 和 ROCm Profiler 等工具调试和测试 ROCm 和 HIP 程序。
- 使用合并、缓存、预取和分析等技术优化 ROCm 和 HIP 程序。