程序在内存中的分布

来源:互联网 发布:用友u8安装数据库 编辑:程序博客网 时间:2024/06/05 13:49

BSS段:(bsssegment)通常是指用来存放程序中未初始化全局变量的一块内存区域。BSS是英文BlockStarted by Symbol的简称。BSS段属于静态内存分配。

数据段:数据段(datasegment)通常是指用来存放程序中已初始化全局变量的一块内存区域。数据段属于静态内存分配。
代码段:代码段(codesegment/text segment)通常是指用来存放程序执行代码的一块内存区域。这部分区域的大小在程序运行前就已经确定,并且内存区域通常属于只读,某些架构也允许代码段为可写,即允许修改程序。在代码段中,也有可能包含一些只读的常数变量 ,例如字符串常量等。程序段为程序代码在内存中的映射.一个程序可以在内存中多有个副本.

堆(heap):堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc/free等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张)/释放的内存从堆中被剔除(堆被缩减)

栈(stack):栈又称堆栈, 存放程序的局部变量(但不包括static声明的变量,static 意味着 在数据段中 存放变量)。除此以外,在函数被调用时,栈用来传递参数和返回值。由于栈的先进先出特点,所以栈特别方便用来保存/恢复调用现场储动态内存分配,需要程序员手工分配,手工释放

下图是APUE中的一个典型C内存空间分布图

 例如:

#include

int g1=0, g2=0, g3=0;

int max(int i)
{
    intm1=0,m2,m3=0,*p_max;
    staticn1_max=0,n2_max,n3_max=0;
    p_max = (int*)malloc(10);
   printf("打印max程序地址\n");
    printf("inmax: 0xx\n\n",max);
   printf("打印max传入参数地址\n");
    printf("inmax: 0xx\n\n",&i);
   printf("打印max函数中静态变量地址\n");
   printf("0xx\n",&n1_max); //打印各本地变量的内存地址
   printf("0xx\n",&n2_max);
   printf("0xx\n\n",&n3_max);
   printf("打印max函数中局部变量地址\n");
   printf("0xx\n",&m1); //打印各本地变量的内存地址
   printf("0xx\n",&m2);
   printf("0xx\n\n",&m3);
   printf("打印max函数中malloc分配地址\n");
   printf("0xx\n\n",p_max); //打印各本地变量的内存地址

    if(i)return 1;
    else return0;
}

int main(int argc, char **argv)
{
    staticint s1=0, s2, s3=0;
    intv1=0, v2, v3=0;
    int*p;   
    p= (int*)malloc(10);

    printf("打印各全局变量(已初始化)的内存地址\n");
    printf("0xx\n",&g1);//打印各全局变量的内存地址
    printf("0xx\n",&g2);
    printf("0xx\n\n",&g3);
    printf("======================\n");
    printf("打印程序初始程序main地址\n");
    printf("main:0xx\n\n", main);
    printf("打印主参地址\n");
    printf("argv:0xx\n\n",argv);
    printf("打印各静态变量的内存地址\n");
    printf("0xx\n",&s1);//打印各静态变量的内存地址
    printf("0xx\n",&s2);
    printf("0xx\n\n",&s3);
    printf("打印各局部变量的内存地址\n");
    printf("0xx\n",&v1);//打印各本地变量的内存地址
    printf("0xx\n",&v2);
    printf("0xx\n\n",&v3);
    printf("打印malloc分配的堆地址\n");
    printf("malloc:0xx\n\n",p);
    printf("======================\n");
   max(v1);
    printf("======================\n");
    printf("打印子函数起始地址\n");
    printf("max:0xx\n\n",max);
    return0;
}

 打印结果:

可以大致查看整个程序在内存中的分配情况:
可以看出,传入的参数,局部变量,都是在栈顶分布,随着子函数的增多而向下增长.
函数的调用地址(函数运行代码),全局变量,静态变量都是在分配内存的低部存在,而malloc分配的堆则存在于这些内存之上,并向上生长.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

在操作系统中,一个进程就是处于执行期的程序(当然包括系统资源),实际上正在执行的程序代码的活标本。那么进程的逻辑地址空间是如何划分的呢?

引用:

 

图1做了简单的说明(Linux系统下的)


C语言中内存分布及程序运行中

左边的是UNIX/LINUX系统的执行文件,右边是对应进程逻辑地址空间的划分情况。


 在现代的操作系统中,当我们说到内存,往往需要分两部分来讲:物理内存和虚拟内存。从硬件上讲,虚拟空间是CPU内部的寻址空间,位于MMU之前,物理空间是总线上的寻址空间,是经过MMU转换之后的空间。

一般我们所说的程序在内存中的分布指的就是程序在虚拟内存中的存储方式。

从低地址到高地址,可分为下面几段: 
预留内存地址
(操作系统维护的内存地址,不可访问) 
程序代码区(只读,存代码和一些其他的东西); 
data段(存初始化的全局变量和static变量,另外还有文字常量区,常量字符串就是放在这里,程序结束后有系统释放); 
bss段(存未初始化的全局变量和static变量); 
(由低地址向高地址增长,一般new和malloc分配,由程序员分配释放);
共享库文件(调用的库文件,位于堆和栈之间);
 
(由高地址向低地址增长,和堆的增长方式相对,对不同的OS来说,栈的初始大小有规定,可以修改,目前默认一般为2M,由编译器自动分配释放); 
再上面存的都是操作系统和内核调用的一些内存地址

如图所示:




首先是堆栈区(stack),堆栈是由编译器自动分配释放,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。栈的申请是由系统自动分配,如在函数内部申请一个局部变量 inth,同时判别所申请空间是否小于栈的剩余空间,如若小于的话,在堆栈中为其开辟空间,为程序提供内存,否则将报异常提示栈溢出。   
其次是堆(heap),堆一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收。注意它与数据结构中的堆是两回事,分配方式倒是类似于链表。堆的申请是由程序员自己来操作的,在C中使用malloc函数,而C++中使用new运算符,但是堆的申请过程比较复杂:当系统收到程序的申请时,会遍历记录空闲内存地址的链表,以求寻找第一个空间大于所申请空间的堆结点,然后将该结点从空闲结点链表中删除,并将该结点的空间分配给程序,此处应该注意的是有些情况下,新申请的内存块的首地址记录本次分配的内存块大小,这样在delete尤其是delete[]时就能正确的释放内存空间。
接着是全局数据区(静态区)(static),全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。另外文字常量区,常量字符串就是放在这里,程序结束后有系统释放。
最后是程序代码区,放着函数体的二进制代码。

举例说明一下:
inta = 0;              //全局初始化区
char*p1;           //全局未初始化区 


intmain()
{
        intb;            // 栈
        chars[] = "abc";      //栈
        char*p2;          //栈
        char*p3 = "123456";   //123456\0在常量区,而p3在栈上

        staticint c =0;   //全局(静态)初始化区 

        p1= (char *)malloc(10);

        p2= (char *)malloc(20); //分配得来得10和20字节的区域就在堆区

        strcpy(p1,"123456");   //123456\0放在常量区,编译器可能会将它与p3所指向的"123456"优化成一个地方。

        return0;
}





我们在写程序时,既有程序的逻辑代码,也有在程序中定义的变量等数据,那么当我们的程序进行时,我们的代码和数据究竟是存放在哪里的呢?下面就来总结一下。


一、程序运行时的内存空间情况

其实在程序运行时,由于内存的管理方式是以页为单位的,而且程序使用的地址都是虚拟地址,当程序要使用内存时,操作系统再把虚拟地址映射到真实的物理内存的地址上。所以在程序中,以虚拟地址来看,数据或代码是一块块地存在于内存中的,通常我们称其为一个段。而且代码和数据是分开存放的,即不储存于同于一个段中,而且各种数据也是分开存放在不同的段中的。

下面以一个简单的程序来看一下在Linux下的程序运行空间情况,代码文件名为space.c
[cpp] view plaincopyprint?在CODE上查看代码片派生到我的代码片
  1. #include <unistd.h>  
  2. #include <stdio.h>  
  3.   
  4. int main()  
  5. {  
  6.     printf("%d\n", getpid());  
  7.     while(1);  
  8.     return 0;  
  9. }  

这个程序非常简单,输出当前进程的进程号,然后进入一个死循环,这个死循环的目的只是让程序不退出。而在Linux下有一个目录/proc/$(pid),这个目录保存了进程号为pid的进程运行时的所有信息,其中有一个文件maps,它记录了程序执行过程中的内存空间的情况。编译运行上面的代码,其运行结果如图1所示:


从上面的图中,我们可以看到这样一个简单的程序,在执行时,需要哪些库和哪些空间。上面的图的各列的意思,不一一详述,只对重要的进行说明。
第一列的是一个段的起始地址和结束地址,第二列这个段的权限,第三列段的段内相对偏移量,第六列是这个段所存放的内容所对应的文件。从上图可以看到我们的程序进行首先要加载系统的两个共享库,然后再加载我们写的程序的代码。

对于第二列的权限,r:表示可读,w:表示可写,x:表示可执行,p:表示受保护(即只对本进程有效,不共享),与之相对的是s,意是就是共享。

从上图我们可以非常形象地看到一个程序进行时的内存分布情况。下面我们将会结合上图,进行更加深入的对内存中的数据段的解说。

二、程序运行时内存的各种数据段

1.bss段
该段用来存放没有被初始化或初始化为0的全局变量,因为是全局变量,所以在程序运行的整个生命周期内都存在于内存中。有趣的是这个段中的变量只占用程序运行时的内存空间,而不占用程序文件的储存空间。可以用以下程序来说明这点,文件名为bss.c
[cpp] view plaincopyprint?在CODE上查看代码片派生到我的代码片
  1. #include <stdio.h>  
  2.   
  3. int bss_data[1024 * 1024];  
  4.   
  5. int main()  
  6. {  
  7.     return 0;  
  8. }  
这个程序非常简单,定义一个4M的全局变量,然后返回。编译成可执行文件bss,并查看可执行文件的文件属性如图2所示:


从可执行文件的大小4774B可以看出,bss数据段(4M)并不占用程序文件的储存空间,在下面的data段中,我们可以看到data段的数据是占用可执行文件的储存空间的。

在图1中,有文件名且属性为rw-p的内存区间,就是bss段。

2.data段
初始化过的全局变量数据段,该段用来保存初始化了的非0的全局变量,如果全局变量初始化为0,则编译有时会出于优化的考虑,将其放在bss段中。因为也是全局变量,所以在程序运行的整个生命周期内都存在于内存中。与bss段不同的是,data段中的变量既占程序运行时的内存空间,也占程序文件的储存空间。可以用下面的程序来说明,文件名为data.c:
[cpp] view plaincopyprint?在CODE上查看代码片派生到我的代码片
  1. #include <stdio.h>  
  2.   
  3. int data_data[1024 * 1024] = {1};  
  4.   
  5. int main()  
  6. {  
  7.     return 0;  
  8. }  
这个程序与上面的bss唯一的不同就是全局变量int型数组data_data,其中第0个元素的值初始化为1,其他元素的值初始化成默认的0,而因为数组的地址是连续的,所以只要有一个元素在data段中,则其他的元素也必然在data段中。编译连接成可执行文件data,并查看可执行文件的文件属性如图3所示:


从可执行文件的大小来看,data段数据(data_data数组的大小,4M)占用程序文件的储存空间。

在图1中,有文件名且属性为rw-p的内存区间,就是data段,它与bss段在内存中是共用一段内存的,不同的是,bss段数据不占用文件,而data段数据占用文件储存空间。

3.rodata段
该段是常量数据段,用于存放常量数据,ro就是Read Only之意。但是注意并不是所有的常量都是放在常量数据段的,其特殊情况如下:
1)有些立即数与指令编译在一起直接放在代码段(text段,下面会讲到)中。
2)对于字符串常量,编译器会去掉重复的常量,让程序的每个字符串常量只有一份。
3)有些系统中rodata段是多个进程共享的,目的是为了提高空间的利用率。

在图1中,有文件名的属性为r--p的内存区间就是rodata段。可见他是受保护的,只能被读取,从而提高程序的稳定性。

4.text段
text段就是代码段,用来存放程序的代码(如函数)和部分整数常量。它与rodata段的主要不同是,text段是可以执行的,而且不被不同的进程共享。

在图1中,有文件名且属性为r-xp的内存区间就是text段。就如我们所知道的那样,代码段是不能被写的。

5.stack段
该段就是栈段,用来保存临时变量和函数参数。程序中的函数调用就是以栈的方式来实现的,通常栈是向下(即向低地址)增长的,当向栈中push一个元素,栈顶指针就会向低地址移动,当从栈中pop一个元素,栈顶指针就会向高地址移动。栈中的数据只在当前函数或下一层函数中有效,当函数返回时,这些数据自动被释放,如果继续对这些数据进行访问,将发生未知的错误。通常我们在程序中定义的不是用malloc系统函数或new出来的变量,都是存放在栈中的。例如,如下函数:
[cpp] view plaincopyprint?在CODE上查看代码片派生到我的代码片
  1. void func()  
  2. {  
  3.     int a = 0;  
  4.     int *n_ptr = malloc(sizeof(int));  
  5.     char *c_ptr = new char;  
  6. }  

整型变量a,整型指针变量n_ptr和char型指针变量c_ptr,都存放在栈段中,而n_ptr和c_ptr指向的变量,由于是malloc或new出来的,所以存放在堆中。当函数func返回时,a、n_ptr、c_ptr都会被释放,但是n_ptr和c_ptr指向的内存却不会释放。因为它们是存在于堆中的数据。

在图1中,文件名为stack的内存区间即为栈段。

6.heap段
heap(堆)是最自由的一种内存,它完全由程序来负责内存的管理,包括什么时候申请,什么时候释放,而且对它的使用也没有什么大小的限制。在C/C++中,用alloc系统函数和new申请的内存都存在于heap段中。

以上面的程序为例,它向堆申请了一个int和一个char的内存,因为没有调用free或delete,所以当函数返回时,堆中的int和char变量并没有释放,造成了内存泄漏。

由于在图1所对应的代码中没有使用alloc系统函数或new来申请内存,所以heap段并没有在图1中显示出来,所以以下面的程序来说明heap段的位置,代码文件为heap.c,代码如下:
[cpp] view plaincopyprint?在CODE上查看代码片派生到我的代码片
  1. #include <unistd.h>  
  2. #include <stdlib.h>  
  3. #include <stdio.h>  
  4.   
  5. int main()  
  6. {  
  7.     int *n_ptr = malloc(sizeof(int));  
  8.     printf("%d\n", getpid());  
  9.     while(1);  
  10.     free(n_ptr);  
  11.     return 0;  
  12. }  
查看其运行时内存空间分布如下:


可以看到文件名为heap的内存区间就是heap段。从上图,也可以看出,虽然我们只申请4个字节(sizeof(int))的空间,但是在操作系统中,内存是以页的方式进行管理的,所以在分配heap内存时,还是一次分配就为我们分配了一个页的内存。注:无论是图1,还是上图,都有一些没有文件名的内存区间,其实没用文件名的内存区间表示使用mmap映射的匿名空间。

0 0