GPU高级调试与优化

来源：互联网发布：阿里云飞天编辑：程序博客网时间：2024/06/05 17:01

GPU的历史很短，只有十几年。但它发展迅猛，凭借强大的并行计算能力和高效率的固定硬件单元，在人工智能、虚拟和增强现实（VR/AR）、3D游戏、视频编解码等领域大显身手。而且这种趋势还在延续，基于GPU的应用和创新势头正猛。

但是从系统架构来看，针对GPU的架构转型还在进行过程中，目前GPU依然还处于外设的地位，还没有摆脱从属身份。因为这个根本特征，对GPU编程并不像对CPU编程那样直接，而调试和优化GPU程序的难度就更大了，要比CPU程序复杂很多。

本研习班从GPU的发展简史入手，沿着GPU的发展历程，从内部结构、硬件接口和软件接口三个维度螺旋推进，深入解析GPU编程的知识要点和难点。硬件方面，以NVIDIA、AMD、INTEL和ARM四大阵营的GPU产品为例，揭秘GPU的内部架构和执行逻辑，解读其强大并行能力的底层实现。软件方面，深入解析OpenVX、OpenCL、CUDA、DirectX和OpenGL等编程接口，以及LINUX和Windows操作系统下的软件栈，包括DRM和WDDM驱动模型、厂商驱动程序等，并介绍优化和调试GPU程序的常用工具和方法。具体由以下12个主题讲解和6个动手试验组成。

时间：2018年1月19日- 12月21日（周五-周日）

地点：上海

形式：实战演练、讲解和讨论点评

培训对象：使用GPU进行通用计算和图形加速的软件工程师（开发和测试）、技术经理和科研人员

主办单位：博览网、高端调试网站、上海曜印网络科技有限公司

序言：三轮演进 （0.5小时）

要点：VGA、硬件加速、2D加速和3D加速，从可配置到可编程，GPGPU，GPU的四大功能模块，具有里程碑性的产品，TVGA、Voodoo、GeForce 256，G80，HD 7900和HSA

-----N篇-----

第一部分：在CUDA-GDB理解CUDA基础（1.5小时）

要点：CUDA简要历史，CUDA的C扩展，kernel函数，WARP，CUDA的线程组织，准备调试环境，单GPU调试和多GPU调试，远程调试，nvcc，-G和-g选项，附加到已经运行的进程，启用kernel初始断点，观察源代码和汇编指令，设置断点，单步跟踪，条件断点，观察CUDA的内建变量，理解grid、block和thread，Grid-StrideLoops，观察GPU线程，观察GPU的调用栈，观察GPU的寄存器，观察错误信息，产生GPU转储（core dump）

试验1：熟悉CUDA-GDB的基本用法

编译并调试一个CUDA程序，练习常用的CUDA-GDB扩展命令，理解CUDA编程的关键概念

第二部分：使用NSight调试CUDA程序（1.5小时）

要点：简介，安装和设置环境信息，CUDA 9.0.props，窗口布局，在VS中编译CUDA程序，产生调试信息（-G），本地调试模型，NSight Monitor，设置断点，观察变量，在Cuda Info窗口中观察计算状态，WarpWatch，调用栈，源代码跟踪，PTX/SASS汇编调试，数据断点，API Trace，OpenCL kernel追踪

试验2：使用Visual Studio和NSight调试CUDA程序

在VS中编译和调试一个典型的并行计算程序，熟悉NSight提供的常用调试功能，包括产生调试信息，建立调试会话，设置各种断点，观察源代码和变量，单步跟踪等

第三部分：在调试器中理解显存和CUDA编程的高级技巧（1.5小时）

要点：内存映射，PCI Aperture，GART，GTT，访问主内存， UVA/UMA，Batch Buffer，CUDA中的内存类型，内存共享，内存复制，使用CUDA memory checker检查内存问题（越界访问）；计算模式，模式切换，同步对象，线程同步，在调试器中观察事件

第四部分：使用NSight调试图形程序（1.5小时）

要点：设置调试环境，本地调试和远程调试，HUD，HUD图表，热键，HUD控制界面，帧调试器，DirecX软件栈，调试HLSL（High Level Shader Language）/GLSL shader，OpenGL负载追踪

试验3：使用NSight调试3D图形程序

在VS中编译和调试一个典型的3D渲染程序，使用HUD功能观察GPU工作细节，认识DirectX软件栈中的关键组件和执行过程

第五部分：在调试器中理解NVidia GPU硬件（1.5小时）

要点：G80，从SIMD到SIMT，warp，SM（Streaming Multiprocessors），Fermi微架构，PTX2指令集，GigaThreads调度器，ECC支持，第三代SM，Kepler微架构，Hyper-Q，Grid Management Unit（GMU），SMX，动态并行，Maxwell微架构，SMM，指令缓存，WARP调度器，指令分发单元，Pascal微架构

----I篇---

第六部分：在Code-Builder中理解OpenCL（1小时）

要点： OpenCL版本，标准导读，执行模型，运行时，OpenCL的执行硬件，CPU模拟，SIMD，kernel函数， Code-Builder简介，编译OpenCL ，kernel执行过程，使用Code-Builder的调试功能，观察device信息，context，对象树，命令队列，LLVM

第七部分：计算机视觉加速接口(OpenVX)和英特尔实现（1.5小时）

要点：OpenVX简介，框架对象，数据对象，图，节点，节点参数，执行模型，回掉，用户kernel，常用功能的接口函数，Intel CV SDK，Vision Algorithm Designer（VAD），人脸检测实力分析和演示

试验4：使用Code-Builder调试人脸检测程序

编译和调试Intel CV SDK中的人脸检测示例程序，练习常用的调试功能

第八部分：英特尔GPU综述（50分钟）

要点：Intel显卡简史，GEN，固定功能单元和通用计算单元（CU），公开的编程手册，寄存器和硬件借口，LINUX驱动，OpenCL支持，clDNN，软件工具链，GPA工具

-----优化篇-----

第九部分：使用CUDA profiler优化CUDA程序（1.5小时）

要点：Profile API，定义别名，定制标记，创建调优会话，nvprof，命令行选项，指定收集范围，定义输出目标，Visual Profiler基础，导入数据，观察时序图，识别重要事件：CPU缺页，GPU缺页，数据迁移，内存复制；采样视图，分析热点，源代码和汇编结合分析，

试验5：使用nvprof和Visual Profiler优化CUDA程序

使用nvprof观察CUDA程序的执行细节，收集性能数据，在Visual Profiler中进行深入分析

第十部分：使用GPUView分析CPU与GPU交互（1小时）

要点：ETW基础，log.cmd，收集事件，识别典型问题：GPU/CPU Starvation，CPU/GPU Idle，线程切换，分析线程切换原因，实例演示

试验6：使用GPUView观察GPU的工作状态

安装GPUView，使用GPUView分析一个典型3D图形程序，理解GPUView的常用功能

-----A篇-----

第十一部分：AMD GPU和HSA（1.5小时）

要点：从ATI到AMD，HSA联盟，公开的技术手册，APU和GCN，GCN3解析，硬件架构，支持HSA的LINUX驱动，先进的调试支持，软件工具链：GpuOpen.com，Radeon GPU Analyzer (RGA)，使用GPU PerfStudio调试图形程序，CodeXL简介，使用CodeXL调试和优化OpenCL程序

第十二部分：ARM GPU（1.5小时）

要点：Mali，典型应用，在深度学习中的应用（inference），Midgard微架构解析，内部结构，通用计算执行单元，DS-5简介， DS-5编译工具，DS-5调试器，Streamline性能分析工具，DS-5 IDE介绍, 系统时域范围的自下而上和自上而下分析方法，自定义标注，Log的图形化显示，OpenCLKernel跟踪, 找到代码热点，调用链分析，矩阵乘法的优化，ARM GPU软件工具链，OpenVX实现，开源代码解读，实例演示：在Midgard GPU上调试OpenCL程序（使用OpenCL加速的人脸检测应用）

讲师介绍

张银奎（Raymond Zhang），绰号“格蠹老雷”，1996年毕业于上海交通大学信息与控制工程系，在软件产业工作20余年，一多半时间在INTEL公司的上海研发中心工作，其中五年多工作在INTEL的GPU部门，以调试显卡驱动代码和各类GPU有关的问题为乐。业余时间喜欢写作和参与各类技术会议，发文数百万字，探讨各类软件问题。2015年起获微软全球最有价值技术专家（MVP）奖励。著有《软件调试》和《格蠹汇编》二书，曾经主笔《程序员》杂志调试之剑专栏。在多家跨国公司历任开发工程师、软件架构师、开发经理、项目经理等职务，对IA-32 架构、操作系统内核、驱动程序、虚拟化技术、云计算、软件调优、尤其是软件调试有较深入研究。从2005年开始公开讲授“Windows内核及高级调试”课程，曾在微软的Webcast和各种技术会议上做过《Windows Vista内核演进》、《调试之剑》（全球软件战役研究峰会）、《感受和思考调试器的威力》（CSDN SD2.0大会）、《Windows启动过程》、《如何诊断和调试蓝屏错误》、《Windows体系结构——从操作系统的角度》（以上三个讲座都是微软“深入研究Windows内部原理系列”的一部分）等。翻译（合译）作品有《现代x86汇编语言编程》、《21世纪机器人》、《观止——微软创建NT和未来的夺命狂奔》、《数据挖掘原理》、《机器学习》、《人工智能：复杂问题求解的结构和策略》等。

特邀讲师：Joey Ye

从显卡的TVGA时代开始便在当时处于领导地位的Trident公司工作，曾参与制定多项GPU设计规范，带领团队实现cmodel，为GPU集成电路设计提供软件验证。后来加入英特尔公司亚太研发中心，主要负责GPU芯片的Power On、调试、功能的研发以及GPU技术在游戏、AR/VR和机器视觉上的应用。目前工作于ARM开放智能实验室，主要负责和领导深度学习在ARM平台上GPU和CPU的实现和加速。