CUDA笔记--GPU的结构与SM(流处理器)结构
来源:互联网 发布:磁力链解析源码 编辑:程序博客网 时间:2024/04/27 22:53
GPU的结构简单的可以分为:
一个连接GPU和PCIe总线的主机接口;
0~2个复制引擎;
一个连接GPU与GPU内存设备的DRAM接口;
一定数目的TPC或者GPC(纹理处理集群或图形处理集群),每个包含一定的缓存和一些流处理器簇(SM)。
主机接口:主要是读取GPU命令(如内存复制和内核启动命令),并将其分派给相应的硬件单元,负责CPU和GPU之间、GPU不同引擎之间和不同GPU之间的同步。
复制引擎:复制引擎可以在流处理簇做计算时执行主机与设备之间的内存传输。在早期的CUDA硬件并没有任何复制引擎,后来版本的硬件包括了一个复制引擎,可以传输线性设备内存(CUDA数组除外),而最新的CUDA硬件则包括了两个复制引擎,这样可以使PCIe总线饱和并可以在CUDA数组和线性内存之间转换。
DRAM接口:GPU的DRAM接口包含了用于合并内存请求的硬件,可以支持超过100GB/s的带宽。
TPC和GPC:TPC和GPC用于执行CUDA计算,特斯拉架构硬件将SM组合成TPC(纹理处理集群),其中,TPC包含纹理硬件支持(一个纹理缓存)和2个或3个SM。费米架构硬件则将SM组合为GPC(图形处理器集群),其中每个GPU包含有一个光栅单元和4个SM。
特斯拉架构的SM的结构包括:
执行单元,用以执行32位整数和单、双精度浮点运算;
特殊函数单元(SFU),用以计算log/exp,sin/cos,rcp/rsqrt的单精度近似值;
一个线程束调度器,用以协调把指令分发到执行单元;
一个常量缓存,用于广播式传送数据给SM;
共享内存,用于线程之间的数据交换;
纹理映射的专用硬件。
1 0
- CUDA笔记--GPU的结构与SM(流处理器)结构
- Cuda学习笔记(一)——sm流处理器簇对blocks的调度策略
- GPU硬件结构--CUDA
- 流式多处理器(streamingMultiproeessor,SM)与流处理器(strcamingProcessor, sp)
- 流式多处理器(streamingMultiproeessor,SM)与流处理器(strcamingProcessor, sp)
- CUDA系列学习(三)GPU设计与结构QA & coding练习
- CUDA系列学习(三)GPU设计与结构QA & coding练习
- CUDA系列学习(三)GPU设计与结构QA & coding练习
- CUDA系列学习(三)GPU设计与结构QA & coding练习
- CUDA系列学习(三)GPU设计与结构QA & coding练习
- CUDA流多处理器(stream multiprocessor,sm)和硬件流处理器(stream processor,sp)
- GPU的硬件结构
- CUDA学习笔记 03 cuda文件组织结构
- 汇编语言笔记0基本概念与x86处理器的结构&&内存管理
- cuda:在GPU内存中生成带有指针的结构体
- CUDA GPU编程中使用结构体传递函数参数
- CUDA GPU编程中使用结构体传递函数参数
- Intel处理器的结构--多核编程学习笔记1
- Android 使用开源库StickyGridHeaders来实现带sections和headers的GridView显示本地图片效果
- 留不住的2015
- 番外 · 凤羽清
- 一步一步学ROP之linux_x86篇
- 解决MySQL安装版出现the the service mysql57 failed问题的方法。
- CUDA笔记--GPU的结构与SM(流处理器)结构
- UGUI之Image使用以及技能释放CD
- hdu 1406 完数
- 配置ssh免密钥登录
- bat批处理相关知识
- Python笔记(3)——控制语句和函数
- The content of the adapter has changed but ListView did not receive a notification分析
- JSON.parse()和JSON.stringify()
- java里getPath、 getAbsolutePath、getCanonicalPath的区别