cuda优化小结

来源:互联网 发布:网络信息抓取软件 合法 编辑:程序博客网 时间:2024/06/17 04:19
1.wrap控制流分支    一个wrap内线程以SIMD执行,若出现控制流分支如不同线程执行不同的if/else分支,for循环次数不一致,会影响效率.    因此尽量保证一个wrap线程完美对齐.如数据长短不一可以填充一些无效元素使其对齐。2.存储器优化,主要是减少全局存储器访问    合并存储器访问,让相邻线程访问相邻内存。        如若矩阵每一个线程访问一行,则以列优先存储矩阵可以使相邻线程访问相邻元素    利用常数存储器存储不变量,不变量若加载到缓存不用担心一致性问题.    将全局存储结果部分加载到共享存储器    利用kernel函数中多使用寄存器存储中间结果3.对SM内资源的合理分配
0 0