高级语言内的单指令多数据流计算(SIMD)
来源:互联网 发布:python图形化编程 编辑:程序博客网 时间:2024/06/05 21:23
tag:单指令多数据流计算,SIMD
摘要:
很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
然而很容易忽视的是,我们在高级语言内也能进行很多SIMD类计算!
正文:
单指令多数据流,Single Instruction Multiple Data,简写为SIMD,就是说用
一个指令同一时间处理多个数据;
很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
比如MMX,3DNow!,MMX2,SSE,SSE2,SSE3,SSSE3,SSE4,AVX等等;
不用借助这些高级指令集和其特殊寄存器,我们在高级语言范围内,也能进行
很多SIMD类似的计算;
问题一 : 对一个字节流的每一个数据进行右移1位
使用SIMD思路的代码(4路数据流同时计算):
明白了这里的实现原理,那么对于其他右移位数/左移/双字节数据也能同理处理了;
其他几个问题也一样可以举一反三;
提示: 如果软件运行在64位模式,那我们就能一次处理更多的数据!
问题二 : 对一个字节流的每一个数据x,计算255-x
一般的代码:
问题三 : 求两个字节流的平均字节流
一般的代码:
使用SIMD思路的代码(2路数据流同时计算):
如果允许结果有点小误差,也可以这样写(4路数据流同时计算):
一个来源于ffmpeg的算法 (4路数据流同时计算): (相当精彩啊)
一般的代码:
//算法为 dst=(a*(255-s)+b*s)/255;
//如果允许误差,可以改为 dst=((a<<8)+((int)b-a)*s)>>8;(甚至dst=a+(((int)b-a)*s>>8));
问题四: 在字节流中查找第一个出现0值位置 (字节流的值域[0..128]) (字符串结束位置查找?)
一般的代码:
使用SIMD思路的代码(4路数据流同时计算):
问题扩展: 字节流的值域[0..255]时的0查找;
一般的代码同上,不用修改;
使用SIMD思路的代码(4路数据流同时计算):
当然,在有SIMD对应指令可以使用的环境下,直接用其指令一般还是比这里的模拟实现有优势的;
如果没有或者不好动用这些指令的情况下,模拟SIMD的实现还是很有速度优势的;
当你能在高级语言内熟练编写SIMD类算法,那么在真的使用SIMD指令的时候就更能得心应手了;
摘要:
很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
然而很容易忽视的是,我们在高级语言内也能进行很多SIMD类计算!
正文:
单指令多数据流,Single Instruction Multiple Data,简写为SIMD,就是说用
一个指令同一时间处理多个数据;
很多年来,x86体系的CPU增加的新指令集大多都是SIMD指令(和相应的寄存器);
比如MMX,3DNow!,MMX2,SSE,SSE2,SSE3,SSSE3,SSE4,AVX等等;
不用借助这些高级指令集和其特殊寄存器,我们在高级语言范围内,也能进行
很多SIMD类似的计算;
问题一 : 对一个字节流的每一个数据进行右移1位
一般的代码: (当然,输出数组也可以是另外一个数组,下同)
uint8 a[10000]; for (int i=0;i<10000;++i) a[i]=a[i]>>1;
使用SIMD思路的代码(4路数据流同时计算):
uint8 a[10000]; uint32* a32=(uint32*)a; //实际代码可能需要考虑内存访问对齐和边界处理问题,下同 for (int i=0;i<2500;++i){ uint32 c=a32[i]&0xFEFEFEFE; a32[i]=c>>1; }
明白了这里的实现原理,那么对于其他右移位数/左移/双字节数据也能同理处理了;
其他几个问题也一样可以举一反三;
提示: 如果软件运行在64位模式,那我们就能一次处理更多的数据!
问题二 : 对一个字节流的每一个数据x,计算255-x
一般的代码:
uint8 a[10000]; uint32* c=(uint32*)a; for (int i=0;i<2500;++i){ a32[i]=~a32[i]; }
问题三 : 求两个字节流的平均字节流
一般的代码:
uint8 a[10000]; uint8 b[10000]; for (int i=0;i<10000;++i) a[i]=(a[i]+b[i])>>1;//我见过的一个处理图像颜色50%混合的代码
使用SIMD思路的代码(2路数据流同时计算):
uint8 a[10000]; uint8 b[10000]; uint32* a32=(uint32*)a; uint32* b32=(uint32*)b; for (int i=0;i<2500;++i){ uint32 c=a32[i]; uint32 d=b32[i]; uint32 e_1_3 =(c & 0xFF00FF00)>>1; uint32 e_0_2 =(c & 0x00FF00FF); e_1_3+=(d & 0xFF00FF00)>>1; e_0_2+=(d & 0x00FF00FF); a32[i]=((e_1_3 & 0xFF00FF00)) | ((e_0_2>>1) & 0x00FF00FF); }
如果允许结果有点小误差,也可以这样写(4路数据流同时计算):
uint8 a[10000]; uint8 b[10000]; uint32* a32=(uint32*)a; uint32* b32=(uint32*)b; for (int i=0;i<2500;++i){ a32[i]=(a32[i]&0xFEFEFEFE>>1)+(b32[i]&0xFEFEFEFE>>1); }
一个来源于ffmpeg的算法 (4路数据流同时计算): (相当精彩啊)
uint8 a[10000];uint8 b[10000]; uint32* a32=(uint32*)a; uint32* b32=(uint32*)b; for (int i=0;i<2500;++i){ uint32 c=a32[i]; uint32 d=b32[i]; a32[i]=(c&d) + (((c^d) & 0xFEFEFEFE) >> 1); } //(还可以试试,注意最后一个bit位 (c|d)- (((c^d)&0xFEFEFEFE)>>1); )问题四 : 按指定比例混合两个字节流 (alphaBlend混合,线性插值缩放等常用的算法)
一般的代码:
//算法为 dst=(a*(255-s)+b*s)/255;
//如果允许误差,可以改为 dst=((a<<8)+((int)b-a)*s)>>8;(甚至dst=a+(((int)b-a)*s>>8));
uint8 a[10000]; uint8 b[10000]; int s=13; //s 可能属于[0..255]; for (int i=0;i<10000;++i){ int c=a[i]; a[i]=((c<<8)+(b[i]-c)*s)>>8; }
//如果不能有误差,这里可以用公式(x/255)==(x*32897>>23)==(x+(x>>8)+1)>>8;
使用SIMD思路的代码(2路数据流同时计算):
uint8 a[10000]; uint8 b[10000]; int s=13; //s 可能属于[0..255]; uint32* a32=(uint32*)a; uint32* b32=(uint32*)b; int rs=256-s; for (int i=0;i<2500;++i){ uint32 c=a32[i]; uint32 d=b32[i]; uint32 e_0_2=(c & 0x00FF00FF)*rs + (d & 0x00FF00FF)*s; uint32 e_1_3=((c & 0xFF00FF00)>>8)*rs + ((d & 0xFF00FF00)>>8)*s; a32[i]=((e_0_2 & 0xFF00FF00)>>8) | (e_1_3 & 0xFF00FF00); }
问题四: 在字节流中查找第一个出现0值位置 (字节流的值域[0..128]) (字符串结束位置查找?)
一般的代码:
uint8 a[10000]; for (int i=0;i<10000;++i){ if (a[i]==0) return i; } return -1;
使用SIMD思路的代码(4路数据流同时计算):
uint8 a[10000]; uint32* a32=(uint32*)a; uint32 test=0; int i=0; for (;i<2500;++i){ test=(a32[i]-0x01010101)&0x80808080; if (test!=0) break; } if (test==0) return -1; i*=4; while ((test&0x80)==0){ ++i; test>>=8; } return i;
问题扩展: 字节流的值域[0..255]时的0查找;
一般的代码同上,不用修改;
使用SIMD思路的代码(4路数据流同时计算):
uint8 a[10000]; uint32* a32=(uint32*)a; uint32 test=0; int i=0; for (;i<2500;++i){ uint32 c=a32[i]; c=((c&0xF0F0F0F0)>>4)|(c&0x0F0F0F0F); test=(c-0x01010101)&0x80808080; if (test!=0) break; } if (test==0) return -1; i*=4; while ((test&0x80)==0){ ++i; test>>=8; } return i;
当然,在有SIMD对应指令可以使用的环境下,直接用其指令一般还是比这里的模拟实现有优势的;
如果没有或者不好动用这些指令的情况下,模拟SIMD的实现还是很有速度优势的;
当你能在高级语言内熟练编写SIMD类算法,那么在真的使用SIMD指令的时候就更能得心应手了;
0 0
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- 高级语言内的单指令多数据流计算(SIMD)
- [SIMD]单指令多数据指令集(一)——SIMD简介
- [SIMD]单指令多数据指令集(二)—— SIMD指令集在非对称算法中的应用
- Pentium III处理器的单指令多数据流扩展指令入门
- Pentium III处理器的单指令多数据流扩展指令入门
- 使用SIMD指令集优化矩阵计算的研究
- 单指令多数据并行提速(一)
- 单指令多数据并行提速(二)
- 单指令多数据并行提速(三)
- 单指令多数据并行提速(四)
- GCC中SIMD指令的应用方法
- GCC中SIMD指令的应用方法
- lca
- 8_30调整nice的值 nice值越高 调用优先级越低。
- ——黑马程序员——C语言中的数组(三)
- 偏向锁与轻量级锁
- gitHub 入门
- 高级语言内的单指令多数据流计算(SIMD)
- ios Autolayout 第三方库Masonry 使用介绍文章链接
- iOS 9 适配系列教程
- myeclipse10 导出war问题解决办法
- C# 计算时间差 用timespan函数
- 机器学习之KNN
- 20151102—unity3D随笔
- 构造二叉树
- 基于MyBatis3.0.6的基本操作介绍