利用shared memeory减少对global memory的访问

来源:互联网 发布:蒙大拿级战列舰数据 编辑:程序博客网 时间:2024/05/01 19:34

近来采用cuda加速,对时间做了下测试,发现cuda版本和c版本的code运行时间基本上没什么大的改善。非常惊讶!因为之前对gpu抱了很大的希望。为什么会事与愿违呢?

仔细研究code,发现,时间的损耗很大一部分都花在数据copy和读取上。于是又开始翻看资料……发现将操作数一次拷贝到shared memory是个不错的idea。


0 0
原创粉丝点击