GPU架构详解
来源:互联网 发布:淘宝欢迎语大全 编辑:程序博客网 时间:2024/06/16 15:10
GPU与内存之间的数据传输通过PCI-E总线进行传输。
PCI Express 版本行代码传输速率吞吐量×1×4×8×161.08b/10b2.5GT/s250MB/s1GB/s2GB/s4GB/s2.08b/10b5GT/s500MB/s2GB/s4GB/s8GB/s3.0128b/130b8GT/s984.6MB/s3.938GB/s7.877GB/s15.754GB/s4.0128b/130b16GT/s1.969GB/s7.877GB/s15.754GB/s31.508GB/s5.0128b/130b32 or 25GT/s3.9 or 3.08GB/s15.8 or 12.3GB/s31.5 or 24.6GB/s63.0 or 49.2GB/sFSB FSB=Front Side BUS前端总线 FSB只指CPU与北桥芯片之间的数据传输总线,又称前端总线。 对于P4来说,FSB频率=CPU外频*4。 这个参数指的就是前端总线的频率,它是处理器与主板交换数据的通道 北桥芯片负责联系内存、显卡等数据吞吐量最大的部件,并和南桥芯片连接。CPU就是通过前端总线(FSB)连接到北桥芯片,进而通过北桥芯片和内存、显卡交换数据。前端总线是CPU和外界交换数据的最主要通道,因此前端总线的数据传输能力对计算机整体性能作用很大,如果没足够快的前端总线,再强的CPU也不能明显提高计算机整体速度。数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率,即数据带宽=(总线频率×数据位宽)÷8。目前PC机上所能达到的前端总线频率有266MHz、333MHz、400MHz、533MHz、800MHz几种,前端总线频率越大,代表着CPU与北桥芯片之间的数据传输能力越大,更能充分发挥出CPU的功能。
显存带宽:显卡GPU与显存之间数据传输带宽。
block:同一个block的线程需要共享数据,必须在同一个sm中发射;(在同一个时刻,一个sm中可有多个活动block)
block中的每一个thread被发射到一个sp上;
block的数量是处理核心的数量的几倍的时候,才能充分发挥GPU的运算能力:如果太少,无法体现其计算速度相较传统方式的优势。
Thread:有自己的私有寄存器和local memory;
同一个block内的线程可以通过共享存储器和同步机制进行通信。
实际运行单元:warp(线程束),大小由硬件能力决定。tesla架构的gpu中为32。划分依据是block的ID,比如,0~31为一束。
32的warp:每发射一条warp指令,sm中的8个sp会将这条指令执行4遍。
GigaThread engine将thread blocks分配给SM调度
主机接口(host interface)
memory controller 内存控制器
- Pascal GPU 架构详解
- Pascal GPU 架构详解
- GPU架构详解
- GPU架构
- GPU 架构及 Pascal GPU
- ARM GPU 架构简介
- ARM GPU 架构简介
- ARM GPU 架构简介
- ARM GPU 架构简介
- ARM GPU 架构简介
- ARM GPU 架构简介
- ARM GPU 架构简介
- GPU架构变迁
- ARM GPU 架构简介
- ARM GPU 架构
- GPU 架构基础
- 成为GPU架构师
- 【转】CUDA-GPU架构
- 社区发现评估指标-NMI
- 易忘知识点
- 并发线程基础(一)
- Kotlin-21.函数(Functions)
- 【HTML】完美运动框架
- GPU架构详解
- java split()函数对字符串分割(通过空格)!
- LeetCode 617 Merge Two Binary Trees(递归合并二叉树)
- SVN的安装教程
- 2017-06-27
- Java多线程系列--“基础篇”05之 线程等待与唤醒
- leetcode 347. Top K Frequent Elements
- vim linux 强大的配置文件
- Bootstrap 部分类名