GPU与MIC对比
来源:互联网 发布:淘宝碧凡化妆品 编辑:程序博客网 时间:2024/05/20 07:52
属性
NVIDIA GPU
Intel MIC
单核
流处理器/CUDA core
每个核运行一个线程
X86 core
每个核上最多支持4个硬件线程
主频
接近1GHz
1.0-1.1GHz
核数
数十个到数千个
57-61
并行度
Grid、block、thread多级并行
细粒度并行(线程数>>核数)
线程之间开销为0
线程+向量化
线程数<=(核数-1)*4
向量化宽度512bit(单精度:16,双精度:8)
内存大小(GB)
最大12GB
6/8/16GB
内存带宽
288 GB/s
240-352GB/s
数据访问要求
Warp内的线程访问的数据连续最佳
线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳
峰值性能
单精度:最大4.29TFlops
双精度:最大1.43TFlops
计算方法:指令吞吐率*运算单元数量*频率
单精度:2.0-2.2 TFlops
双精度:1.0-1.1 TFlops
Sample DP calculation: 16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s
编程语言
CUDA、OpenCL、OpenACC
OpenMP、OpenCL、Cilk、OpenACC
编程模式
Offload
Offload、Native、Symmetric
功耗
235W
225-300W
PCI-E带宽
支持2.0(双向各8GB/s)
支持3.0(双向各16GB/s)
支持2.0(双向各8GB/s)
目前不支持3.0
运行平台
PC、服务器、工作站
个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高
服务器
比较专业,成本较高,个人很少配置
产品
GeForce:几百到几千元,用在PC上(当前主流GTX710-780)
Tesla:1W-3W元,用在服务器上(当前主流K20,K40)
Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M)
KNC:1W-2W元左右
当前主流7110P、5110P、3110P
支持的操作系统
Windows:XP、win7、win8
Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等
Linux ARM:Ubuntu
Mac OSX
Windows:Windows 8 Server, Win 7, Win 8
Linux:RedHat6.0及以上,SuSE SLES11及以上
卡上自带OS
无
自带uOS,有独立IP
- GPU与MIC对比
- GPU与MIC对比
- GPU与CPU对比测试
- GPU&MIC技术交流QQ群
- HPC DIY 硬件篇(MIC+GPU)
- GPU与CPU版本的矩阵乘法对比
- CPU下的计时与GPU计时对比
- GPU与CPU版本的矩阵乘法对比
- CPU与GPU的内存带宽对比(CPU vs CUDA GPU memory bandwidth)
- 【HPC】MIC和GPU在高性能计算中的使用
- 主流GPU性能对比
- GPU和CPU对比
- 手机GPU对比
- R网格MIC与频繁项集
- 基于opencv的gpu与cpu对比程序,代码来自opencv的文档中
- Julia曲线绘制-——CPU版本与GPU版本对比
- Telechips 6410 GPU JIT 性能测试对比
- gpu gem, nvidia纹理阴影实现对比
- android viewpager + fragment 选中当前fragment再触发一些事情的问题
- 字典树
- 线程锁用于进程之间
- SAP ABAP 开发中常用的BAPI
- 别人整理好开源android项目
- GPU与MIC对比
- Java自学笔记(第一天)安装Java8---配置运行环境---编写"hello world"程序---注释
- HTTP 协议 学习笔记 1
- 【OpenGL】理解一些基本问题
- Linux配置8021.q vlan实践篇
- 把linux图形启动界面修改成命令行界面
- Packet Tracer 5.0实验(三) 交换机划分VLAN配置
- 例2.1.1的Numpy实现
- leetcode--N-Queens