CUDA编程(十)使用Kahan's Summation Formula提高精度
来源:互联网 发布:淘宝最新赚钱漏洞 编辑:程序博客网 时间:2024/05/22 13:18
CUDA编程(十)
使用Kahan’s Summation Formula提高精度
上一次我们准备去并行一个矩阵乘法,然后我们在GPU上完成了这个程序,当然是非常单纯的把任务分配给各个线程,也没有经过优化。最终我们看到,执行效率相当的低下,但是更重要的是出现了一个我们之前做整数立方和没遇到的问题,那就是浮点数精度损失的问题。
关注GPU运算的精度问题:
在程序的最后,我们计算了精度误差,发现最大相对误差偏高,而一般理想上应该要低于 1e-6。
我们之前将评估CUDA程序的时候也提过了,精度是CUDA程序需要重点评估的一个点,那么我们该如何解决这个问题呢?我们先分析一下原因。
出现精度问题的原因:
其实计算结果的误差偏高的原因很简单,在 CPU 上进行计算时,我们使用 double(即 64 bits 浮点数)来累进计算过程,而在 GPU 上则只能用 float(32 bits 浮点数)。在累加大量数字的时候,由于累加结果很快会变大,因此后面的数字很容易被舍去过多的位数。
这里可能说的不是很清楚,看完下面这个例子就清楚了。
浮点数的大数吃小数问题:
浮点数的精度:
大家应该很清楚,浮点数在内存中是按科学计数法来存储的,分为符号位,指数位,和尾数位。
float和double各段的位数分别是:
float:
1bit(符号位) 8bits(指数位) 23bits(尾数位)
double:
1bit(符号位) 11bits(指数位) 52bits(尾数位)
float和double的精度是由尾数的位数来决定的:
float: 2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字。
double: 2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。
大数吃小数:
float因为位数相较于double要短不少,所以很容易出现大数吃小数的问题:
比如我们用两个float相加:
#include <stdio.h>int main(){ float a = 100998; float b = 2.338; a = a + b; printf("the sum is %f", a);}
a+b 应该等于 101000.338,前面说了float的精度有6~7位,所以38可能会被截掉,3不一定,但是8必然会被截掉,我们可以实际输出一下看看:
结果是:the sum is 101000.335938
因为%f是输出double类型,可以看到转换后8这位已经没了,33是正常的。
从这里可以看到一个加法过程就没了0.008,要是加1000次,一个整8就没了。
这就是大数吃小数问题。
Kahan’s Summation Formula:
现在我们就要想办法解决这个问题了,我们看到标题中这个看起来很高大上的名字,这个也叫作kahan求和算法,我们接下来就要用kahan求和来避免这种精度损失的情况。
名字很高大上,但是原理很小儿科,小学生也知道,缺的我们想办法再补回来:
所以我们用一个temp变量来记住损失掉的部分,等下次加法的时候再加回去就好了。
temp= (a+b)-a-b; 在上面那个问题中 temp = -0.008,在下次计算的时候加和到下一个加数就可以一定程度的减小误差。
Kahan’s Summation Formula伪代码:
function KahanSum(input) var sum = 0.0 var c = 0.0 //A running compensation for lost low-order bits. for i = 1 to input.length do y = input[i] - c //So far, so good: c is zero. t = sum + y //Alas, sum is big, y small, so low-order digits of y are lost. c = (t - sum) - y //(t - sum) recovers the high-order part of y; subtracting y recovers -(low part of y) sum = t //Algebraically, c should always be zero. Beware eagerly optimising compilers! //Next time around, the lost low part will be added to y in a fresh attempt. return sum
提高矩阵乘法的精度:
看着伪代码比着葫芦画瓢还是比较简单的,我们只需要更改核函数中的加和部分即可:
原版
//计算矩阵乘法 if (row < n && column < n) { float t = 0; for (i = 0; i < n; i++) { t += a[row * n + i] * b[i * n + column]; } c[row * n + column] = t; }
改版
//计算矩阵乘法 if (row < n && column < n) { float t = 0; float y = 0; for (i = 0; i < n; i++) { float r; y -= a[row * n + i] * b[i * n + column]; r = t - y; y = (r - t) + y; t = r; } c[row * n + column] = t; }
完整程序:
#include <stdio.h>#include <stdlib.h>#include <time.h>//CUDA RunTime API#include <cuda_runtime.h>#define THREAD_NUM 256#define MATRIX_SIZE 1000const int blocks_num = MATRIX_SIZE*(MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;//打印设备信息void printDeviceProp(const cudaDeviceProp &prop){ printf("Device Name : %s.\n", prop.name); printf("totalGlobalMem : %d.\n", prop.totalGlobalMem); printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock); printf("regsPerBlock : %d.\n", prop.regsPerBlock); printf("warpSize : %d.\n", prop.warpSize); printf("memPitch : %d.\n", prop.memPitch); printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock); printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0], prop.maxThreadsDim[1], prop.maxThreadsDim[2]); printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0], prop.maxGridSize[1], prop.maxGridSize[2]); printf("totalConstMem : %d.\n", prop.totalConstMem); printf("major.minor : %d.%d.\n", prop.major, prop.minor); printf("clockRate : %d.\n", prop.clockRate); printf("textureAlignment : %d.\n", prop.textureAlignment); printf("deviceOverlap : %d.\n", prop.deviceOverlap); printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);}//CUDA 初始化bool InitCUDA(){ int count; //取得支持Cuda的装置的数目 cudaGetDeviceCount(&count); if (count == 0) { fprintf(stderr, "There is no device.\n"); return false; } int i; for (i = 0; i < count; i++) { cudaDeviceProp prop; cudaGetDeviceProperties(&prop, i); //打印设备信息 printDeviceProp(prop); if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) { if (prop.major >= 1) { break; } } } if (i == count) { fprintf(stderr, "There is no device supporting CUDA 1.x.\n"); return false; } cudaSetDevice(i); return true;}//生成随机矩阵void matgen(float* a, int n){ int i, j; for (i = 0; i < n; i++) { for (j = 0; j < n; j++) { a[i * n + j] = (float)rand() / RAND_MAX + (float)rand() / (RAND_MAX * RAND_MAX); } }}// __global__ 函数 并行计算矩阵乘法__global__ static void matMultCUDA(const float* a, const float* b, float* c, int n, clock_t* time){ //表示目前的 thread 是第几个 thread(由 0 开始计算) const int tid = threadIdx.x; //表示目前的 thread 属于第几个 block(由 0 开始计算) const int bid = blockIdx.x; //从 bid 和 tid 计算出这个 thread 应该计算的 row 和 column const int idx = bid * THREAD_NUM + tid; const int row = idx / n; const int column = idx % n; int i; //记录运算开始的时间 clock_t start; //只在 thread 0(即 threadIdx.x = 0 的时候)进行记录,每个 block 都会记录开始时间及结束时间 if (tid == 0) time[bid] = clock(); //计算矩阵乘法 if (row < n && column < n) { float t = 0; //temp变量 float y = 0; for (i = 0; i < n; i++) { float r; y -= a[row * n + i] * b[i * n + column]; r = t - y; y = (r - t) + y; t = r; } c[row * n + column] = t; } //计算时间,记录结果,只在 thread 0(即 threadIdx.x = 0 的时候)进行,每个 block 都会记录开始时间及结束时间 if (tid == 0) { time[bid + blocks_num] = clock(); }}int main(){ //CUDA 初始化 if (!InitCUDA()) return 0; //定义矩阵 float *a, *b, *c, *d; int n = MATRIX_SIZE; //分配内存 a = (float*)malloc(sizeof(float)* n * n); b = (float*)malloc(sizeof(float)* n * n); c = (float*)malloc(sizeof(float)* n * n); d = (float*)malloc(sizeof(float)* n * n); //设置随机数种子 srand(0); //随机生成矩阵 matgen(a, n); matgen(b, n); /*把数据复制到显卡内存中*/ float *cuda_a, *cuda_b, *cuda_c; clock_t* time; //cudaMalloc 取得一块显卡内存 cudaMalloc((void**)&cuda_a, sizeof(float)* n * n); cudaMalloc((void**)&cuda_b, sizeof(float)* n * n); cudaMalloc((void**)&cuda_c, sizeof(float)* n * n); cudaMalloc((void**)&time, sizeof(clock_t)* blocks_num * 2); //cudaMemcpy 将产生的矩阵复制到显卡内存中 //cudaMemcpyHostToDevice - 从内存复制到显卡内存 //cudaMemcpyDeviceToHost - 从显卡内存复制到内存 cudaMemcpy(cuda_a, a, sizeof(float)* n * n, cudaMemcpyHostToDevice); cudaMemcpy(cuda_b, b, sizeof(float)* n * n, cudaMemcpyHostToDevice); // 在CUDA 中执行函数 语法:函数名称<<<block 数目, thread 数目, shared memory 大小>>>(参数...); matMultCUDA << < blocks_num, THREAD_NUM, 0 >> >(cuda_a, cuda_b, cuda_c, n, time); /*把结果从显示芯片复制回主内存*/ clock_t time_use[blocks_num * 2]; //cudaMemcpy 将结果从显存中复制回内存 cudaMemcpy(c, cuda_c, sizeof(float)* n * n, cudaMemcpyDeviceToHost); cudaMemcpy(&time_use, time, sizeof(clock_t)* blocks_num * 2, cudaMemcpyDeviceToHost); //Free cudaFree(cuda_a); cudaFree(cuda_b); cudaFree(cuda_c); cudaFree(time); //把每个 block 最早的开始时间,和最晚的结束时间相减,取得总运行时间 clock_t min_start, max_end; min_start = time_use[0]; max_end = time_use[blocks_num]; for (int i = 1; i < blocks_num; i++) { if (min_start > time_use[i]) min_start = time_use[i]; if (max_end < time_use[i + blocks_num]) max_end = time_use[i + blocks_num]; } //核函数运行时间 clock_t final_time = max_end - min_start; //CPU矩阵乘法,存入矩阵d for (int i = 0; i < n; i++) { for (int j = 0; j < n; j++) { double t = 0; for (int k = 0; k < n; k++) { t += a[i * n + k] * b[k * n + j]; } d[i * n + j] = t; } } //验证正确性与精确性 float max_err = 0; float average_err = 0; for (int i = 0; i < n; i++) { for (int j = 0; j < n; j++) { if (d[i * n + j] != 0) { //fabs求浮点数x的绝对值 float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]); if (max_err < err) max_err = err; average_err += err; } } } printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n)); printf("gputime: %d\n", final_time); return 0;}
运行结果:
我们看到结果还是效果还是非常不错的,我们上次的结果是:
Max error:2.07589e-006
Average error :3.3492e-007
gpu time:189967999
而目前的结果是:
Max error:1.19206e-007
Average error :7.70641e-010
gpu time:210779939
我们可以看到精确度确实有了很大的提升,当然效率还是一如既往地慢,不过我们至少把精度问题给解决了。
总结:
之前我们用CUDA完成了矩阵乘法,但是当然会存在很多问题,除了速度问题,GPU浮点数运算的精度也很差,本篇博客从出现误差的原理(浮点数大数吃小数)分析,使用了Kahan’s Summation Formula在一定程度上解决了CUDA运算float精度不够的情况,接下来我们会着手去解决速度问题~
希望我的博客能帮助到大家~
参考资料:《深入浅出谈CUDA》
- CUDA编程(十)使用Kahan's Summation Formula提高精度
- CUDA编程(十)使用Kahan's Summation Formula提高精度
- Kahan's Summation Formula
- 利用CUDA的矩阵乘法1 <利用 Kahan's Summation Formula 来提高CUDA 的浮点数运算精确度>
- Kahan's Summation Formula原理—它是如何避免大数吃小数的
- Kahan's Summation Formula原理—它是如何处理大数吃小数的
- Kahan's Summation Formula原理—它是如何避免大数吃小数的
- Kahan summation
- Kahan summation algorithm
- 保持精度的小trick:Kahan求和
- 《GPU高性能编程CUDA实战》学习笔记(十)
- (CUDA 编程7).CUDA内存访问(一)提高篇------按部就班
- 如何使用CUDA 显卡编程
- CUDA编程(1)
- c语言编程提高除法运算的精度
- GPU编程之CUDA(十)——示例程序运行截图【7_CUDALibraries】
- 泰勒公式(Taylor's Formula)
- CUDA编程->CUDA入门了解(一)
- 1005 hdoj Number Sequence (java函数格式)
- 记录一次Centos7下php无法连接redis
- C语言循环数组做FIFO队列--一些认识
- android多线程下载
- bestcoder 79 Claris and XOR
- CUDA编程(十)使用Kahan's Summation Formula提高精度
- hdu3007(最小覆盖圆问题)
- JavaBean和JavaBeans
- maven打包jar
- Java中的break和continue
- 深度解析Struts2中ValueStack
- IOS Json文件 做本地国际化
- HDOJ 2060 Snooker
- R中读写数据文件