给定一个最多包含40亿个随机排列的32位整数的顺序文件，找出一个不在文件中的32位整数

来源：互联网发布：西安翡翠软件培训编辑：程序博客网时间：2024/06/05 11:34

给定一个最多包含40亿个随机排列的32位整数的顺序文件，找出一个不在文件中的32位整数。
           1、在文件中至少存在这样一个数？
           2、如果有足够的内存，如何处理？
           3、如果内存不足，仅可以用文件来进行处理，如何处理？
答案：
           1、32位整数，包括-2146473648~~2146473647，约42亿个整数，而文件中只有40亿个，必然有整数少了。
           2、如果采用位数思想来存放，则32位整数最多需要占用43亿个位。约512MB的内存空间 (2`32/8=512MB，这种情况是用一个位表示8bit)

可以采用前一章的位处理方法。然后判断每个int是否等于-1。因为-1的二进制表示是全1的。如果不等于-1。那么说明某一位没有置位。需要进行处理。

如果是用个整数用一位表示出现与否，需要的内存大小：2`32/8/(1024*1024*1024)=0.5G.处理方法：我们遍历一遍文件，将出现的数对应的那一位置1，然后遍历这些位，找到第一个有0的位即可，这一位对应的数没有出现

          3、内存不足，可以采用如下思想：
                      按最高位分为两段，没有出现的那个数，肯定在比较小的段里面。
                      如果比较少的段最高位为1，那么缺少的那个数的最高位也为1.
                      如果比较少的段最高位为0，那么少的那个数的最高位也是0.
                      依次按以上方法去处理每个位。
                 算法复杂度为O(n)。每次处理的部分都是上一次的一半。累加之后是O(n).
                 思想与找第K小数的思想是一样的。只不过在这里是有一个自动分割的过程。而找第k小数的时候，是随机找一个数。
                 为了验证思想这里写了段C代码。
[html]
int get_lost(int *a, int *b, int *c, int alen, int bit)
{
    int re = 0, v = 0, biter = 0, *t, citer, i = 0;
    if (!a || !b || alen ==(unsigned long)( (1<< bit))) return -1; //哪个数与最多可能拥有个数相等的时候，直接返回了。

int split(int* a, int* b, int*c, int alen, int bit){    int biter, citer, i;    int v=0, re = 0, *t;    while(bit--){        v = (1 << bit);        for(i=biter=citer=0; i < alen; i++) {            if(a[i] & (1<<bit)) {                b[biter++] = a[i];            } else {                c[citer++] = a[i];            }        }        if(biter <= citer) {            re += v;            t = a;            a = b;            b = t;            alen = biter;        } else {            t = c;            c = a;            a = t;            alen = citer;        }    }    return re;}

程序理解：

re最开始是零，如果在某一位上是1的数字大于是0的数字，则把这一位的re置为0。在for循环中，将a的所有数字，按照某一位为零还是为一分成了两部分，也就是b数组和c数组，然后在后面交换b或c和a的位置，在下一个while循环里面处理数字更少的位数。re负责标记，如果某一位为1的数字更多，则这以为标记为0，如果为0的多，标记为1（什么也不做）。最后的re是一个32位的数，他的每一位都是更少的一位，所以它自己本身一定是不存在的。

a指向待查找数组，b存储特定某位为1的的数， c存储某位为0的数。最开始的时候a，b，c都是一样大小。

int split(int* a, int* b, int*c, int alen, int bit)

{
int biter, citer, i;//biter、citer分别是b和c的索引计数器
int v=0, re = 0, *t;

while(bit--){    v = (1 << bit); //v从最高位开始依次向后    for(i=biter=citer=0; i < alen; i++) { //遍历数组a        if(a[i] & (1<<bit)) {            b[biter++] = a[i];//若a[i]的第bit位为1，就把它存入b中        } else {            c[citer++] = a[i];//若a[i]的第bit位为0，则存入c中        }//这里就把输入的文件按照从高位到低位的某一位是否为1分成了两类    }    if(biter <= citer) {//在遍历第bit位中，bit位为1的数比bit位为0的数少，那么缺失值肯定                       //在bit位为1的中（在b中）        re += v;        //所以将待求值第bit位置1。因为v = (1 << bit)，因此加v只是把相应的位变位1，因为re初始化的时候为0        t = a;        a = b;        b = t;        //这里为什么要交换是因为，保存bit位中0或者1中最少的那个，然后再在其中搜索不在文件中的数        alen = biter;        } else {        t = c;        //若c数量少，则缺失值第bit为0，不用处理        c = a;        a = t;        //将c赋给a，进行下一次迭代        alen = citer;    }}return re;//re就是找到的不在文件中的数而且肯定存在

}

这种查找方法的时间复杂度是O(n),n+n/2+n/4+n/8+n/2^log(2)n=2n-1;故时间复杂度是O(n)，总共划分的次数是log(2)n 。

http://segmentfault.com/q/1010000000359749

0 0