CUDA运算单元速度和选择
来源:互联网 发布:软件著作权代码打印 编辑:程序博客网 时间:2024/06/03 21:16
CUDA Stream processor 里的运算单元,基本上是一个浮点数的 fused multiply-add 单元,也就是说它可以进行一次乘法和一次加法,如下所示:
a = b * c + d;
compiler 会自动把适当的加法和乘法运算,结合成一个 fmad 指令。
除了浮点数的加法及乘法之外,整数的加法、位运算、比较、取最小值、取最大值、及以型态的转换(浮点数转整数或整数转浮点数)都是可以全速进行的。整数的乘法则无法全速进行,但 24 bits 的乘法则可以。在 CUDA 中可以利用内建的 __mul24 和 __umul24 函式来进行 24 bits 的整数乘法。
浮点数的除法是利用先取倒数,再相乘的方式计算,因此精确度并不能达到 IEEE 754 的规范(最大误差为 2 ulp)。内建的 __fdividef(x,y) 提供更快速的除法,和一般的除法有相同的精确度,但是在 2216 < y < 2218 时会得到错误的结果。
此外 CUDA 还提供了一些精确度较低的内部函数,包括 __expf、__logf、__sinf、__cosf、__powf 等等。这些函式的速度较快,但精确度不如标准的函式。详细的数据可以参考 CUDA Programming Guide 1.1 的 Appendix B。
根据上面的说法, 将C代码改成CUDA代码的时候,尽量用浮点的代码,这样效率会高点,测试了下CUDA SDK中测试dct的代码,确实是这样,使用float比使用short速度要稍微快点
- CUDA运算单元速度和选择
- cuda编程基本概念和矩阵运算
- CUDA 的硬件单元映射
- decimal 和double的运算速度比较
- 运算速度
- 算术运算单元
- 复数运算单元
- 单元选择合并变色
- cuda编程---cuda的速度计量
- CUDA的cublas 和 Intel的MKL 矩阵运算对比
- CUDA SDK VolumeRender:跨编译单元调用
- cuda 简单数组运算
- 关于STM32 浮点运算单元
- JAVA之运算符和选择结构
- 计算机组成原理--运算速度表示和进制表示
- 开发速度和代码质量,你的选择是?
- DataGridView单元按钮列和支持三种选择状态的复选框列的实现
- 变量运算速度
- DWR: 创建与JAVA对象对应的JS对象。
- linux基本命令
- glib常用库函数和一些定义
- JAVA初学者都必须理解的几个问题
- ReportViewer 报表的内置函数
- CUDA运算单元速度和选择
- 字符,字节和编码
- 什么可能是一个人终生成就的能源
- 给UDP增加可靠性
- 在DELPHI程序中注册OLE/COM控件
- Java验证码资料精粹
- 一对多关系,按一聚合多
- 以数据库为中心的时代已经终结
- MySQL 常见错误提示的对照表