CUDA/GPU下矩阵乘法的几种实现的C++源码
来源:互联网 发布:adobe 软件 ico图标 编辑:程序博客网 时间:2024/05/16 05:41
环境:CUDA toolkit3.2+Windows XP+CUDA SDK中的vs2008模板release编译通过,显卡是GeForce GT240。大家可根据自己的情况进行测试,报告一下结果吧.
不同规模的运行结果:
矩阵阶数为 512,简单方法: 0.033887s(7.922Gflops),块方法: 0.008424s(31.865Gflops),块+循环展开方法: 0.003995s(67.191Gflops),块+线程粒度2: 0.008091s(33.179Gflops),块+循环展开方法+线程粒度2: 0.003399s(78.984Gflops)
矩阵阶数为1024,简单方法: 0.264424s(8.121Gflops),块方法: 0.066201s(32.439Gflops),块+循环展开方法: 0.030827s(69.662Gflops),块+线程粒度2: 0.063264s(33.945Gflops),块+循环展开方法+线程粒度2: 0.026282s(81.710Gflops)
矩阵阶数为2048,简单方法: 2.112513s(8.132Gflops),块方法: 0.527002s(32.599Gflops),块+循环展开方法: 0.244058s(70.392Gflops),块+线程粒度2: 0.505495s(33.986Gflops),块+循环展开方法+线程粒度2: 0.208845s(82.261Gflops)
矩阵阶数为4096,简单方法: 17.705070s(7.763Gflops),块方法: 4.205308s(32.682Gflops),块+循环展开方法: 1.966043s(69.906Gflops),块+线程粒度2: 4.059064s(33.860Gflops),块+循环展开方法+线程粒度2: 1.677771s(81.918Gflops)
测试结果表明在块大小16x16时,块方法和循环展开对速度有很显著的影响,而线程粒度的使用对速度只有很小的提高。而块大小是8x8时的情形没有测试,线程粒度对速度应该有较大影响,家可以做一做。
参考文献: David B. Kirk, Wen-mei W. Hwu. 大规模并行处理器编程实战[M]. 北京: 清华大学出版社, 2010.
- CUDA/GPU下矩阵乘法的几种实现的C++源码
- cuda开发矩阵乘法测试你的GPU效率
- CUDA开发矩阵乘法测试你的GPU效率
- 基于Cuda的几种并行稀疏矩阵乘法方法(一)
- 利用cuda的cublas库实现任意矩阵的乘法
- 分治策略之矩阵乘法的几种实现
- CUDA编程——矩阵乘法的串行和两种并行实现
- 基于gpu与cuda c的神经网络实现
- 矩阵乘法的C语言实现
- CUDA学习--矩阵乘法的并行运算
- CUDA向量与矩阵的乘法
- 【矩阵乘法】:矩阵乘法的基本实现
- GPU希尔排序的CUDA实现
- CUDA学习九:多GPU系统上的CUDA C
- CUDA下的GPU编程入门--第一个CUDA程序
- 矩阵加法的CUDA实现
- C中实现矩阵乘法的一种高效的方法
- 基于GPU的CUDA
- 程序员应知——简单就是美
- QQ最常用快捷键
- 通过liveCD进行ubuntu启动修复
- WINDOWS XP快捷键大全
- Linux基础系列-DEBUG
- CUDA/GPU下矩阵乘法的几种实现的C++源码
- [ACE程序员教程笔记]将同步方法转换为异步方法
- Ogre控件在网页中调用的问题
- oracle to_char 避免出现".0"
- 下载安装Cygwin
- spell check investigation
- 迈向架构师的第一步
- 什么人算是程序员??
- 坚持和良好心态近乎道