cuda线程配置
来源:互联网 发布:c语言输入一组数排序 编辑:程序博客网 时间:2024/05/18 03:14
1 每个SM上面失少要有192个激活线程,寄存器写后读的数据依赖才能被掩盖
2 将 寄存器 的bank冲突降到最低,应尽量使每个block含有的线程数是64的倍数
3 block的数量应设置得令可用的计算资源被充分的利用。由于每个block映射到一个sm上面,所以至少应该让block的数目跟sm的数目一样多。
4 当Block中的线程被同步时或者等待读取设备存储器时,相应的SM会闲置。通常让block的数目是sm的2倍以上,使其在时间轴上重叠
5 如果block的数目足够多,则每个Block里的线程数应设置成warp尺寸的整数倍,以免过小的warp浪费计算资源。
6 给每个block分配越多的线程,能更高效的让他们在时间片上工作。但是相应的每个线程的寄存器也就越少。当寄存器过少,有可能因为访问溢出的寄存器,而导致数据的存储变慢。
7 当每个线程占用的寄存器较多时,不宜在Block内分配过多的线程,否则也会减少block的数目。从而使SM的工作效率降低
8 每个block内的线程数应遵循 相应的 计算能力等级中的规定数目。
0 0
- CUDA线程配置:
- cuda线程配置
- 最优的cuda线程配置
- CUDA性能优化----线程配置
- cuda线程
- 配置cuda
- CUDA配置
- cuda的线程模型
- cuda线程模型
- CUDA线程模型二
- CUDA 线程同步
- CUDA线程模型
- CUDA线程分配
- cuda的线程模型
- CUDA一维线程
- cuda之多线程分析
- cuda线程网格
- CUDA 编程--线程层次
- 如何快速转载CSDN中的博客
- Android监视器概述
- 解决Android7.x找不到libsqlite.so 问题
- JS的条件判断和循环
- 如何将live stream发布到Youtube
- cuda线程配置
- CentOS编译安装支持ATS等nginx一键脚本
- 使用CoordinatorLayout+AppBarLayout实现上滑隐藏下拉呈现视图的功能
- 洛谷 P1118 [USACO06FEB]数字三角形Backward Digit Su…
- JS的函数简介与使用
- cdo
- 4-浏览器对象+递归和闭包(详细)
- PyQt5的学习之路(七)
- Drawable /Bitmap、String/InputStream、Bitmap/byte[]互转