利用bitmap进行海量数据排序

来源：互联网发布：php企业网站模板下载编辑：程序博客网时间：2024/05/07 18:14

每一个排序算法都有优劣性，主要在于数据的构成。比如，有些排序算法对某类数据的排序效率很高，对某类数据的排序效率很低，而有些算法对数据构成却无关紧要。

bitmap对不重复且都为正数的海量数据进行排序真是不二选择，效率大大的高，根据我的代码测算，1亿条数据大概也就30秒左右，占用内存12M左右。而在用快排测试时，用时比这长很多，等了好几分钟就停止执行了，也不知到底会化多长时间。不过，bitmap的确比快排快很多很多。

bitmap的原理如下：

0100 0000 0000 0000 0000 0000 0000 0000 //1
0110 0000 0000 0000 0000 0000 0000 0000 //1 2
0110 0010 0000 0000 0000 0000 0000 0000 //1 2 6
0110 1010 0000 0000 0000 0000 0000 0000 //1 2 4 6
0111 1010 0000 0000 0000 0000 0000 0000 //1 2 3 4 6
0111 1110 0000 0000 0000 0000 0000 0000 //1 2 3 4 5 6
0111 1110 0100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 9
0111 1110 1100 0000 0000 0000 0000 0000 //1 2 3 4 5 6 8 9
1111 1110 1100 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9
1111 1110 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 8 9 10
1111 1111 1110 0000 0000 0000 0000 0000 //0 1 2 3 4 5 6 7 8 9 10

不知你看出规律了么？

这种思想便是位向量的思想，标示一个数据仅用二进制的一位。而我们熟知的C 、C++ 中没有对应一个二进制位的数据类型，因此，要实现位向量，需要借助于位操作。这里，我们采用整型数组模拟定义1000万个位的数组。问题的纠结处即是如何用整型数组模拟定义1000万个位的数组。其实上面的简化例子已将问题描述的相当清楚，如A[0]（32位中的每位）可表示0-31的整数，A[1]表示32-63……

好了，原理就是这样，上代码：

#include <stdio.h>#include <time.h>#define MAXNUM  11000000#define NUMCOUNT  MAXNUMvoid setbit(unsigned int *num,unsigned int bit);unsigned getbit(unsigned int num,unsigned int bit);int main(void){FILE *srcfp = NULL;unsigned i = 0;unsigned j = 0;unsigned num = 0,tnum = 0;unsigned int *arr = NULL;unsigned iflag = 0,jflag = 0;clock_t start,finish;if (NULL == (srcfp = fopen("d:\\b.txt","rb+"))){printf("ERROR!\n");getch();exit(1);}arr = (unsigned int *)malloc(sizeof(unsigned)*(MAXNUM/32 + 1));memset(arr,0,sizeof(unsigned)*(MAXNUM/32 + 1));//读取每一个值 start = clock();printf("开始执行……\n");fseek(srcfp,0,SEEK_SET);for (i = 0;i < NUMCOUNT;i ++){fread(&num,sizeof(unsigned),1,srcfp);iflag = num/32;jflag = num%32;setbit(arr + iflag,31 - jflag);}fseek(srcfp,0,SEEK_SET);for (i = 0;i < MAXNUM/32 + 1;i ++){tnum = *(arr + i);for (j = 0;j < 32;j ++){if (getbit(tnum,31 - j)){num = i*32 + j;fwrite(&num,sizeof(unsigned),1,srcfp);}}}fclose(srcfp);finish = clock();printf("\n排序完成:%dms\n",finish - start);free(arr);getch();return 0;}void setbit(unsigned int *num,unsigned int bit){*num |= 0x1<<bit; //0 - 31}unsigned getbit(unsigned int num,unsigned int bit){return (num>>bit)&0x1;//0 - 31}

关于测试数据的生成，读者可以参考我上一篇博文：如何生成100万个无序不重复随机值，谢谢大家！本人菜鸟，不足之处，还请多多指教。