GPU架构详解

来源：互联网发布：淘宝欢迎语大全编辑：程序博客网时间：2024/06/16 15:10

PCI-E控制器，即PCI-EXPRESS LANES控制器，可以支持显示卡。PCI Express接口模式通常用于显卡网卡等,主板类接口卡.PCIe指的是PCI-E总线，Gen2指的是2.0.

满足条件:

主板必须有PCI Express专用插槽。

优势与性能介绍:

-与PCI和AGP插槽相比，PCI-Express更具有潜在的生产价值。

-比PCI总线具有更高的可测量性。

能够满足硬盘控制器，千兆网卡以及其他一些对带宽需求较大的外设对于带宽的需求。

GPU与内存之间的数据传输通过PCI-E总线进行传输。

PCI Express 版本行代码传输速率吞吐量×1×4×8×161.08b/10b2.5GT/s250MB/s1GB/s2GB/s4GB/s2.08b/10b5GT/s500MB/s2GB/s4GB/s8GB/s3.0128b/130b8GT/s984.6MB/s3.938GB/s7.877GB/s15.754GB/s4.0128b/130b16GT/s1.969GB/s7.877GB/s15.754GB/s31.508GB/s5.0128b/130b32 or 25GT/s3.9 or 3.08GB/s15.8 or 12.3GB/s31.5 or 24.6GB/s63.0 or 49.2GB/s

FSB 　　FSB=Front Side BUS前端总线　　FSB只指CPU与北桥芯片之间的数据传输总线，又称前端总线。　　对于P4来说，FSB频率=CPU外频*4。　　这个参数指的就是前端总线的频率，它是处理器与主板交换数据的通道北桥芯片负责联系内存、显卡等数据吞吐量最大的部件，并和南桥芯片连接。CPU就是通过前端总线（FSB）连接到北桥芯片，进而通过北桥芯片和内存、显卡交换数据。前端总线是CPU和外界交换数据的最主要通道，因此前端总线的数据传输能力对计算机整体性能作用很大，如果没足够快的前端总线，再强的CPU也不能明显提高计算机整体速度。数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率，即数据带宽＝（总线频率×数据位宽）÷8。目前PC机上所能达到的前端总线频率有266MHz、333MHz、400MHz、533MHz、800MHz几种，前端总线频率越大，代表着CPU与北桥芯片之间的数据传输能力越大，更能充分发挥出CPU的功能。

显存带宽：显卡GPU与显存之间数据传输带宽。

block：同一个block的线程需要共享数据，必须在同一个sm中发射；（在同一个时刻，一个sm中可有多个活动block）

block中的每一个thread被发射到一个sp上；

block的数量是处理核心的数量的几倍的时候，才能充分发挥GPU的运算能力：如果太少，无法体现其计算速度相较传统方式的优势。

Thread：有自己的私有寄存器和local memory；

同一个block内的线程可以通过共享存储器和同步机制进行通信。

实际运行单元：warp（线程束），大小由硬件能力决定。tesla架构的gpu中为32。划分依据是block的ID，比如，0~31为一束。

32的warp：每发射一条warp指令，sm中的8个sp会将这条指令执行4遍。

GigaThread engine将thread blocks分配给SM调度

主机接口(host interface)

memory controller 内存控制器

阅读全文

0 0