cuda调优
来源:互联网 发布:老备案域名出售 编辑:程序博客网 时间:2024/06/17 15:06
cuda调优工具:
nsight, nvvp, nvprof, 前两个为可视化工具,可以远程监控性能参数, nvprof为命令行监控工具,其实nsight和nvvp的远程监控实现是借助于nvprof来收集性能数据的。
其中nsight和nvvp均可进行远程的工具分析,但是cuda在安装的时候,linux和window下有nvvp工具,但是并没有nsight
在正常的远程测试行能的时候,nsight是正确的,但是nsight却出现了一些错位的情况。
因此对于这种情况可以执行以下操作:
1.nvprof --kernels "kernel_name" --analysis-metrics -o analysis.nvprof app app_params
2.打开nvvp然后执行import->nvprof->sinlge process->analysis.nvprof(拷贝到本地或者远程均可),即可打开
3.对于一些性能还没打开的选项,点击analyze all即可
nsight 文档详细介绍:http://docs.nvidia.com/gameworks/index.html#developertools/desktop/nsight/analysis/report/cudaexperiments/kernellevel/memorystatisticsglobal.htm
这里包含了nsight中的术语的介绍,这会有助于我们理解这些统计数据的意思。
cuda优化方案:
1.检测是否有local memory使用:这个一般是由于local valiable的数组,由于无法在编译确定数组大小或者迭代数组无法展开,这样都会导致数组是存放在local memory的,
而local memory的的访问速度基本和global memory的访问速度一致,因此这应该是需要避免的。解决方案是将数组定义成可以在编译期就可以确定大小,并且迭代访问的数组可以进行展开,这样的话该数组能够在寄存器够用的情况下使用寄存器存储和使用。
2.float浮点数的存取已经达到带宽限制了,那么可以考虑将float浮点数压缩成16位浮点数,这样在相同带宽的情况下,可以加载更多的数据量,以此减少加载数据所需要消耗的时间。
- cuda调优
- CUDA
- CUDA
- CUDA
- CUDA
- CUDA
- CUDA
- CUDA
- CUDA
- cuda
- cuda
- cuda
- Cuda
- cuda
- CUDA
- cuda
- CUDA
- CUDA
- Jackson实现Object对象与Json字符串的互转
- Android—Activity详解
- leetcode-52. N-Queens II
- java中的foreach循环
- opencv rect类
- cuda调优
- Spark入门实战指南——HIVE
- java中遍历MAP的几种方法
- 私有成员变量在block如何避免循环引用
- js 获取、清空input type="file"的值示例代码
- CSS多个class样式使用实践-多用组合,少用继承
- USART串口通信配置
- Java跨平台原理
- java常用类库