[学习小结]数组名与数组首元素地址解析

来源:互联网 发布:mac war3 不能局域网 编辑:程序博客网 时间:2024/05/22 09:50
 

2012.04.12



学C++的日子里经常被莫名其妙的问题(没意义但是很纠结的问题)给缠住,然后想了半天,大概是处于这么一个状态:知道怎么用,但是却不知道为什么是这样,而且还带有一点疑问。

今天被 变量名 这个问题给缠住了。因为我有个概念,CPU只认识地址,那么声明个变量到底是怎么回事,这个变量不是地址啊。


然后得出了这个结论。


编译器都帮我们弄好了,机器码内是没有变量符号地址的,只是为了帮助我们阅读而已。全局变量之类的,应该都在运行开始的时候就分配好了,而在函数体内的局部变量,即声明个变量,都是借由编译器改变esp的地址来分配堆栈段空间,而我们的变量的地址,则由编译器编译时候的符号表来替代成地址了。


一个变量,依我理解,在符号表内至少有2个属性,引用的内存地址,类型

int a=0;

符号表就会有a这个符号,同时会有分配好的内存的地址。这个内存地址每次运行不一定是相同的,受到进入函数体时候ebp的影响。则定义一个变量,只是把esp移相应字节数。而访问这个a变量,则替换成引用符号表内的地址的内存,是根据ebp偏移相应字节来访问的。


即高级语言的a=1的赋值语句,将符号表中a地址解引用访问到那个栈内存块,然后赋值。



而上述讨论的指针和数组名,似乎也能这么理解。


数组名只是存在于编译器编译过程中的一个符号而已,这个符号记录的信息,肯定有类型,类似于int[5]之类的,然后就是数组名所指向的地址了。所以数组名是不分配空间的。


对数组元素的访问,可以这样的分析。


int a[5];

int b=a[0];


这种访问方式,则编译后分配数组a空间的时候esp移动了4*5字节,同时符号表内a对应着起始地址。访问时a的符号表直接替换a,用地址+0 的偏移访问元素。也可以理解为什么用a的符号能得到数组的长度。


char *szA="hello";

int c=szA[2];


这种方式,则首先会为szA分配空间,即符号表存在着szA的符号,同时有着szA引用的内存,szA引用的内存存放着字符串常量"hello"的地址。

访问时,szA被*pszA替代,pszA就是符号表记录的szA引用的内存地址,同时用该内存地址的值+偏移量来访问字符串的值。


所以,个人理解是在编译过程中,定义一个变量的时候,会增加一个符号表的内容(变量名,数组名,函数名等),然后在堆栈区分配空间,记录它引用的内存的地址(变量),或者代表的地址(数组名函数名等),定义一个变量最终是转化为机器认得的地址,接下来所有引用到这个变量的东西均由符号表内的内容替换成地址。



一段简单的代码

int _tmain(int argc, _TCHAR* argv[]){int a;int *b=&a;return 0;}

int _tmain(int argc, _TCHAR* argv[]){00411A00  push        ebp               //保存进入main函数前的ebp堆栈段基址00411A01  mov         ebp,esp //更新ebp基址,用于寻址main函数下的局部变量00411A03  sub         esp,0CCh //减去相应字节数来增加局部变量00411A09  push        ebx  00411A0A  push        esi  00411A0B  push        edi  //保存寄存器数值00411C9C  lea         edi,[ebp+FFFFFF28h] 00411CA2  mov         ecx,36h 00411CA7  mov         eax,0CCCCCCCCh 00411CAC  rep stos    dword ptr [edi] int a;int *b=&a;00411CAE  lea         eax,[ebp-8] //最终a的符号被[ebp-8]替代来访问引用的内存00411CB1  mov         dword ptr [ebp-14h],eax return 0;00411CB4  xor         eax,eax }









在课堂上老师经常把这两者等价,可是是否两者是一样的呢?

 

我们来看一个例子:

int a[5];

cout<<sizeof(a);

int* p=a;

cout<<sizeof(a);

 

若两者是等价的,那么两者的输出应该是一样的,可事实是第一个输出了数组的总长度sizeof(int)*5,而第二个输出了32位机器上的地址长度,也就是记录一个地址需要4字节。由此可见数组名绝对不是简简单单的一个数组首地址而已。

 

由此我们可以推论,实际上还存在着某种特殊的数据结构,似乎与int float等内置基本类型相同的类型。按命名法则,可以推断a的类型是int[5]!

存在int[5]这种类型么?

请在编译器中输入以下代码:

    int a[5];
    int *p=0;
    a=p;

这说明了两个问题:

1.存在int[5]类型,详情请见编译器错误提示。

2.a是一个int[5]类型,而且这种类型是个常量,即不可修改。

所以说,C++中是存在这个类型的,我们也可以写如下的代码:

int a[5];

int (*p)[5];

p=&a;

 

上述代码是什么意思呢?我们首先定义了一个数组,然后声明了一个p指针,这个指针是指向了int[5]类型的,即a,故需要给a取地址,这也侧面说明了为什么声明一个指针需要说明数组的维数,因为int[5]和int[6]的类型是不同的!

而又由于int[5]可以隐式转换为int*,故上述的p指针其实也是一个int**,但其实是上述定义的int(*)[5],为什么呢,读者可以再次对p进行sizeof(*p)操作,可发现依旧能得出数组的大小,而普通的非数组名的指针,或者是由数组名隐式转换的指针是不会知道数组大小的。

所以可以得出以下结论:

1.数组名不是指针,仅仅是可以隐式转换为指针

2.数组名是一种特殊的数据结构,可以得出数组的大小

3.当数组名作为形参进行值传递时,将失去这种特殊的数据结构

4.数组名是一个常量





原创粉丝点击