GPU与MIC对比
来源:互联网 发布:天猫跟淘宝有什么区别 编辑:程序博客网 时间:2024/06/05 02:51
属性
NVIDIA GPU
Intel MIC
单核
流处理器/CUDA core
每个核运行一个线程
X86 core
每个核上最多支持4个硬件线程
主频
接近1GHz
1.0-1.1GHz
核数
数十个到数千个
57-61
并行度
Grid、block、thread多级并行
细粒度并行(线程数>>核数)
线程之间开销为0
线程+向量化
线程数<=(核数-1)*4
向量化宽度512bit(单精度:16,双精度:8)
内存大小(GB)
最大12GB
6/8/16GB
内存带宽
288 GB/s
240-352GB/s
数据访问要求
Warp内的线程访问的数据连续最佳
线程内访问的数据连续;如果向量化的话,向量化的数据访问连续最佳
峰值性能
单精度:最大4.29TFlops
双精度:最大1.43TFlops
计算方法:指令吞吐率*运算单元数量*频率
单精度:2.0-2.2 TFlops
双精度:1.0-1.1 TFlops
Sample DP calculation: 16 DP FLOPs/clock/core * 61 cores * 1.1GHz = 1073.6 GFLOP/s
编程语言
CUDA、OpenCL、OpenACC
OpenMP、OpenCL、Cilk、OpenACC
编程模式
Offload
Offload、Native、Symmetric
功耗
235W
225-300W
PCI-E带宽
支持2.0(双向各8GB/s)
支持3.0(双向各16GB/s)
支持2.0(双向各8GB/s)
目前不支持3.0
运行平台
PC、服务器、工作站
个人可以在PC上配置一块GeForce卡运行CUDA,成本低、性能高
服务器
比较专业,成本较高,个人很少配置
产品
GeForce:几百到几千元,用在PC上(当前主流GTX710-780)
Tesla:1W-3W元,用在服务器上(当前主流K20,K40)
Quadro:数千元,用在工作站上(当前主流Quadro K4100M、Quadro K3100M、Quadro K2100M、Quadro K610M)
KNC:1W-2W元左右
当前主流7110P、5110P、3110P
支持的操作系统
Windows:XP、win7、win8
Linux X86:Fedora、OpenSUSE、RHEL/CentOS、SLES、SteamOS、Ubuntu等
Linux ARM:Ubuntu
Mac OSX
Windows:Windows 8 Server, Win 7, Win 8
Linux:RedHat6.0及以上,SuSE SLES11及以上
卡上自带OS
无
自带uOS,有独立IP
- GPU与MIC对比
- GPU与MIC对比
- GPU与CPU对比测试
- GPU&MIC技术交流QQ群
- HPC DIY 硬件篇(MIC+GPU)
- GPU与CPU版本的矩阵乘法对比
- CPU下的计时与GPU计时对比
- GPU与CPU版本的矩阵乘法对比
- CPU与GPU的内存带宽对比(CPU vs CUDA GPU memory bandwidth)
- 【HPC】MIC和GPU在高性能计算中的使用
- 主流GPU性能对比
- GPU和CPU对比
- 手机GPU对比
- R网格MIC与频繁项集
- 基于opencv的gpu与cpu对比程序,代码来自opencv的文档中
- Julia曲线绘制-——CPU版本与GPU版本对比
- Telechips 6410 GPU JIT 性能测试对比
- gpu gem, nvidia纹理阴影实现对比
- 百度地图在android中的应用(一)
- Linux下autoconf和automake使用
- matlab 类似输入股票代码输入框
- JavaScript如何使用控制台
- 终于清晰啦!offsetHeight、scrollHeight、clientHeight和offsetTop、scrollTop、clientTop
- GPU与MIC对比
- java jni 返回map
- Spring Boot基础教程9-web应用开发-错误处理
- 证件识别,银行卡识别,车牌识别等
- SecureCRT连接VMware失败的总结
- Java并发编程-进程和线程之由来
- RPM介绍
- EasyAR非unity样例运行
- 生成带参二维码--微信公众平台开发(二)