C/C++——一个因为unsigned引发的大问题

来源：互联网发布：excel多表格数据合计编辑：程序博客网时间：2024/06/03 15:59

首先来看一段代码（其实可以不看，直接看下面的重点），我也只是截取了其中一部分，是一个学长在刷LeetCode时自己写的算法,可能写的算法不能通过所有测试用例，但是在下面这个测试用例测试的时候，然后出现了bug。重点请看我注释的那几行就行了。

haystack="aijkgrek";needle="i";

int strStr(string haystack, string needle) {    int len1 = needle.size();//分别求haystack和needle的长度（注意其实这两个结果原本都是unsigned，强制转换成了int，这也是问题所在）    int len2 = haystack.size();    if (len1 == 0) return 0;    if (len2<len1)        return -1;    int* next = new int[len1];    int i = 0, j = 0,k = -1;    next[0] = -1;    /*while (j<len1 - 1)其实这一段并没有执行    {        if (k == -1 || needle[k] == needle[j])        {            ++k;            ++j;            next[j] = k;        }        else            k = next[k];    }*/    j = 0; i = 0;//到这儿，j=0,i=0,next[0]=-1,知道这些就够了    while (j<int(needle.size()) && i<len2)//第一次循环后，j变成了-1,然后，如果在needle.size()前没有加int，就直接跳出循环了。    {        if (j == -1 || needle[j] == haystack[i])        {            j++;            i++;        }        else        {            j = next[j];        }    }    if (j == len1)        return i - len1;    else        return -1;}

重点

重点两个字还是要大一点。
然后先来看一段简短的代码：

#include <iostream>using namespace std;int main(){    int a = -1;    unsigned int b = 1;    if (b > a){        cout << "b is bigger" << endl;    }    else{        cout << "a is bigger" << endl;    }    return 0;}

如果我问上面这段程序的输出结果，我相信很多人会直接说，肯定是

b is bigger

可是不幸的是结果却是

a is bigger

有图有真相，不信的自己试试
这里写图片描述

一切的原因在于有符号数与无符号运算时数强制类型转换方式及底层表示方法。

当执行一个运算时（如这里的a>b），如果它的一个运算数是有符号的而另一个数是无符号的，那么C++会隐式地将有符号参数强制类型为无符号数，并假设这两个数都是非负的，来执行这个运算。这种方法对于标准的算术运算来说并无多大差异，但是对于像<和>这样的运算就可能产生非直观的结果。

所以对应回上面的例子，就是它先把-1（变量a的值）这个有符号数强制转换成无符号数，然后再与1（变量b）的值，来进行比较，并假设这两个数原本都是非负的，然后进行比较。那么-1转换为无符号数后，其值为多少呢？你可以写一个小小的程序来验证一下，在32和64位的机子上，-1对应的无符号数应该是4 294 967 295，即32位的无符号数的最大值（UMax），就是32个1，所以if中的条件总是为真。

要想这段代码正常执行，我们需要怎么办呢？很简单，把if语句改为if(a > (int)b)即可。这样程序就会认为是两个有符号数在进行比较，-1就不会隐式地转换为无符号数而变成UMax。

可能你已经有一个问题，为什么使用强制类型，把变量b的类型变成int程序就能正常，而-1转换成无符号数为什么会是4 294 967 295呢？这就得从整型数据在计算机中的表示和C语言对待强制类型转换的方式说起。

我们知道，整数在计算机中通常是以补码的形式存在的，而-1的补码（用4个字节储存）为1111,1111,1111,1111。而C语言对于强制类型转换是怎么处理的呢？对大多数C语言的实现，处理同样字长的有符号数和无符号数之间的相互转换的一般规则是：数值可能会改变，但是位模式不变。也就是说，将unsigned int强制类型转换成int，或将int转换成unsigned int底层的位表示保持不变。

也就是说，即使是-1转换成unsigned int之后，它在内存中的表示还是没有改变，即1111,1111,1111,1111。我们知道在计算机的底层，数据是没有类型可言的，所有的数据非0即1。数据类型只有在高层的应用程序才有意义，也就是说，同样的储存表示对于应用程序而言可能对应着不同的数据，例如1111,1111,1111,1111对于有符号数而言它表示-1，但对于无符号数而言，它表示UMax，但是它们的底层存储都是一样的。现在你应该明白为什么-1转换成无符号数之后，就成了UMax了吧。

所以再回过头来看我在最开始的时候给出的程序，其实就是因为j在一次循环后变成了-1和值为1的unsigned型的needle.size()比较时，出了问题。

再来个例子：
然后这里又要再多说一句，在发现这个问题后，我也查了点资料

string s="";for (int i=0;i<s.size()-1;++i){    cout<<"bazinga"<<endl;}

这里会输出4 294 967 295个bazinga，玩死你~

其实就因为是无符号类型，所以平时我们使用的时候要注意，多用size_t和size_type。
一般数组的大小，用size_t；
容器的大小，如vector,string等，用size_type
如：

int a[5]={1,2,3,4,5};size_t sizea=sizeof(a)/size(a[0);vector<int> b{1,2,3,4,5};vector<int>::size_type sizeb=b.size();

也可以参考我这篇对于size_t和size_type的文章
http://blog.csdn.net/sinat_36053757/article/details/66971326

0 0