C语言中结构体的剖析

来源:互联网 发布:北京夺冠马布里数据 编辑:程序博客网 时间:2024/05/16 10:39
写出一个struct,然后sizeof,你会不会经常对结果感到奇怪?sizeof的结果往往都比你声明的变量总长度要大,这是怎么回事呢? 结构体到底怎样对齐?

【结构体】

有人给对齐原则做过总结,具体在哪里看到现在已记不起来,这里引用一下前人的经验(在没有#pragma pack宏的情况下):


原则1、数据成员对齐规则:结构(struct或联合union)的数据成员,第一个数据成员放在offset为0的地方,以后每个数据成员存储的起始位置要从该成员大小的整数倍开始(比如int在32位机为4字节,则要从4的整数倍地址开始存储)。
原则2、结构体作为成员:如果一个结构里有某些结构体成员,则结构体成员要从其内部最大元素大小的整数倍地址开始存储。(struct a里存有struct b,b里有char,int,double等元素,那b应该从8的整数倍开始存储。)
原则3、收尾工作:结构体的总大小,也就是sizeof的结果,必须是其内部最大成员的整数倍,不足的要补齐。


这三个原则具体怎样理解呢?我们看下面几个例子,通过实例来加深理解。

 

 例1:struct{

  short a1;
  short a2;
  short a3;
  }A;


  struct{
  long a1;
  short a2;
  }B;


  sizeof(A) = 6; 这个很好理解,三个short都为2。
  sizeof(B) = 8; 这个比是不是比预想的大2个字节?long为4,short为2,整个为8,因为原则3。


  例2:struct A{
  int a;
  char b;
  short c;
  };


  struct B{
  char b;
  int a;
  short c;
  };


struct C{
  char b;
  short c;
  int a;
  };


  sizeof(A) = 8; int为4,char为1,short为2,这里用到了原则1和原则3。
  sizeof(B) = 12; 是否超出预想范围?char为1,int为4,short为2,怎么会是12?还是原则1和原则3。
  sizeof(C) = 8; char为1,short为2,int为4,这里用到了原则1和原则3。

  深究一下,为什么是这样,我们可以看看内存里的布局情况。


  a b c
  A的内存布局:1111, 1*, 11


  b a c
  B的内存布局:1***, 1111, 11**

  b c a

B的内存布局:1*,11, 1111

  其中星号*表示填充的字节。A中,b后面为何要补充一个字节?因为c为short,其起始位置要为2的倍数,就是原则1。c的后面没有补充,因为b和c正好占用4个字节,整个A占用空间为4的倍数,也就是最大成员int类型的倍数,所以不用补充。


  B中,b是char为1,b后面补充了3个字节,因为a是int为4,根据原则1,起始位置要为4的倍数,所以b后面要补充3个字节。c后面补充两个字节,根据原则3,整个B占用空间要为4的倍数,c后面不补充,整个B的空间为10,不符,所以要补充2个字节。

  再看一个结构中含有结构成员的例子:

  例3:struct A{
  int a;
  double b;
  float c;
  };


  struct B{
  char e[2];
  int f;
  double g;  
  short h;
  struct A i;
  };


  sizeof(A) = 24; 这个比较好理解,int为4,double为8,float为4,总长为8的倍数,补齐,所以整个A为24。
  sizeof(B) = 48; 看看B的内存布局。


  e f g h i 
  B的内存布局:11* *, 1111, 11111111, 11 * * * * * *, 1111* * * *, 11111111, 1111 * * * *  
  i其实就是A的内存布局。i的起始位置要为24的倍数,所以h后面要补齐。把B的内存布局弄清楚,有关结构体的对齐方式基本就算掌握了。


  以上讲的都是没有#pragma pack宏的情况,如果有#pragma pack宏,对齐方式按照宏的定义来。比如上面的结构体前加#pragma pack(1),内存的布局就会完全改变。sizeof(A) = 16; sizeof(B) = 32;

首先我们看下#pragma pack的意义:设置结构体的边界对齐为1个字节,也就是所有数据在内存中是连续存储的。


  a b c
  A的内存布局:1111, 11111111, 1111


  e f g h i 
  B的内存布局:11, 1111, 11111111, 11 , 1111, 11111111, 1111  


【位结构体】


  还有一种常见的情况,结构体中含位域字段。
位域成员不能单独被取sizeof值。C99规定int、unsigned int和bool可以作为位域类型,但编译器几乎都对此作了扩展,允许其它类型类型的存在。


  使用位域的主要目的是压缩存储,其大致规则为: 
  1) 如果相邻位域字段的类型相同,且其位宽之和小于类型的sizeof大小,则后面的字段将紧邻前一个字段存储,直到不能容纳为止; 
  2) 如果相邻位域字段的类型相同,但其位宽之和大于类型的sizeof大小,则后面的字段将从新的存储单元开始,其偏移量为其类型大小的整数倍; 
  3) 如果相邻的位域字段的类型不同,则各编译器的具体实现有差异,VC6采取不压缩方式,Dev-C++采取压缩方式; 
  4) 如果位域字段之间穿插着非位域字段,则不进行压缩; 
  5) 整个结构体的总大小为最宽基本类型成员大小的整数倍。


  还是让我们来看看例子。

  相邻位域相同:
  例4:struct A{ 
  char f1 : 3; 
  char f2 : 4; 
  char f3 : 5; 

  }; 


  a b c
  A的内存布局:111, 1111 *, 11111 * * *
  位域类型为char,第1个字节仅能容纳下f1和f2,所以f2被压缩到第1个字节中,而f3只能从下一个字节开始。因此sizeof(A)的结果为2。


  相邻位域不同:

  例5:struct B{ 
  char f1 : 3; 
  short f2 : 4; 
  char f3 : 5; 
  };
  由于相邻位域类型不同,在VC6中其sizeof为6,在Dev-C++中为2。


  相邻位域有非位域穿插:

  例6:struct C{ 
  char f1 : 3; 
  char f2; 
  char f3 : 5; 
  };
  非位域字段穿插在其中,不会产生压缩,在VC6和Dev-C++中得到的大小均为3。


    考虑一个问题,为什么要设计内存对齐的处理方式呢?如果体系结构是不对齐的,成员将会一个挨一个存储,显然对齐更浪费了空间。那么为什么要使用对齐呢?体系结构的对齐和不对齐,是在时间和空间上的一个权衡。对齐节省了时间。假设一个体系结构的字长为w,那么它同时就假设了在这种体系结构上对宽度为w的数据的处理最频繁也是最重要的。它的设计也是从优先提高对w位数据操作的效率来考虑的。有兴趣的可以google一下,人家就可以跟你解释的,一大堆的道理。


  最后顺便提一点,在设计结构体的时候,一般会尊照一个习惯,就是把占用空间小的类型排在前面,占用空间大的类型排在后面,这样可以相对节约一些对齐空间。


位结构体
位结构 节省存贮空间 “:”操作符 位域


一、首先说概念:


位结构是一种特殊的结构, 在需按位访问一个字节或字的多个位时, 位结构比按位运算符更加方便。
位结构定义的一般形式为:
struct  位结构名{
数据类型 [变量名]: 整型常数; //成员称为“位域”或者“位段”
数据类型 [变量名]: 整型常数;
} 位结构变量;


其中: 数据类型必须是整型(int/char/short)。 整型常数的范围是数据类型的长度, 如定义为short,则范围是1~16。
变量名是选择项, 可以不命名, 这样规定是为了排列需要。
例如: 下面定义了一个位结构。
struct webpage{
unsigned char incon: 8; /*incon占用低字节的0~7共8位*/
unsigned char txcolor: 4;/*txcolor占用高字节的0~3位共4位*/
unsigned char bgcolor: 3;/*bgcolor占用高字节的4~6位共3位*/
unsigned char blink: 1; /*blink占用高字节的第7位*/
}ch;
printf("%d\n",sizeof(struct webpage));输出:2。
位结构成员的访问与结构成员的访问相同。
例如: 访问上例位结构中的bgcolor成员可写成:
ch.bgcolor


注意:
1. 一个位域必须存储在定义它的一个数据类型内部,不能跨跨该数据类型。如char定义的位域所剩空间不够存放另一位域时,应从下一单元起存放该位域。也可以有意使某位域从下一单元开始。
struct bs
{
 unsigned a:4
 unsigned :0 /*空域*/
 unsigned b:4 /*从下一单元开始存放*/
 unsigned c:4
}
在这个位域定义中,a占第一字节的4位,后4位填0表示不使用,b从第二字节开始,占用4位,c占用4位。


2.由于位域不允许越过定义它的数据类型,因此位域的长度不能大于定义它的数据类型的长度。
3. 位结构总长度(位数), 是各个位成员定义的位数之和再向最大结构成员对齐。
4. 位结构成员可以与其它结构成员一起使用。

例如:
struct info{
char name[8];
int age;
struct addr address;
float pay;
unsigned char state: 1;
unsigned char pay: 1;
}workers;
上例的结构定义了关于一个工人的信息。其中有两个位结构成员, 每个位结构成员只有一位, 用unsigned char数据类型,因此只占一个字节但保存了两个信息, 该字节中第一位表示工人的状态, 第二位表示工资是否已发放。由此可见使用位结构可以节省存贮空间。


二、再说说位结构的位域存储顺序问题


我们知道字节存储顺序有高字节优先的big-endian大端存储法(高字节数据放在低字节地址处)和低字节优先的little-endian小端存储法,无论使用大端法还是小端法,都不存在技术原因,只是涉及到处理器厂商的立场和习惯。INTEL的X86平台使用小端法,IBM、 Motorola、Sun Microsystem的大多数微处理器则使用大端法,还有部分微处理器可以由用户自己设置是使用大端法还是小端法,如ARM、MIPS、PowerPC 等。
位域在存储时的顺序和它的编译器有关,一般是先申请的放在低位。程序举例如下:
#i nclude "stdio.h"
void main()
{
 union
 {
 struct student
 {
  unsigned char s1:1;
   unsigned char s2:3;
 }x;
 unsigned char c;
 }v;
 v.c=0;
 v.x.s1=0;
 v.x.s2=4;
printf("%d\n",v.c);
printf("%d\n",sizeof(struct student)); 
}
输出:
8
1


即结构体成员申请是按照顺序从低地址开始。所以上边结构体v在内存中数据的排列顺序为


    s1 s2
    |0| 0|0|1| 0|0|0|0| (1个字节,因为是unsigned char类型)
低地址       高地址




s1放着0
s2放着4(二进制100),在内存里由低到高为“|0|0|1|”。
所以v.c为二进制00001000,即十进制8。
同时,因为s1占一个位,s2占三个位,而两者都是unsigned char型,且最大的数据类型也就是unsigned char型,一个字节足够放下s1和s2了。所以我们看到struct student的大小为1个字节。
如果从先申请的放在高字节,则上边的输出为
           s2  s1
0000 |001 |0
即输出应该是:
64
1
网上有人说TURBO C是采用这种方式,我没试过。


三、位结构的位对齐问题
位结构的其实不存在位对齐问题,即位不需要对齐。其他方面,位结构和一般结构体类似,遵循结构体的对齐原则,


#i nclude "stdio.h"


void main()
{
 union
 {
 struct student
 {
  unsigned char s1:1;
   unsigned char s2:2;
  unsigned char s3:2;
 }x;
 unsigned char c;
 }v;
 v.c=0;
 v.x.s1=0;
 v.x.s3=2;
printf("%d\n",v.c);
printf("%d\n",sizeof(struct student)); 
}
输出结果是:
16
1


因为它只按整体对齐,所以为
s1s2s3
0  0001000
即二进制00010000等于十进制16,而不是
s1s2    s3
0  00 0 01 00


再举一个位结构体的例子


#i nclude "stdio.h"
void main()
{
 union
 {
 struct student
 {
  unsigned char s1:1;
   unsigned char s2:2;
  unsigned short s3:2;
 }x;
 unsigned short c;
 unsigned int d;
 }v;
 v.d=0;
 v.x.s1=0;
 v.x.s3=2;
printf("%d\n",v.d);
printf("%d\n",sizeof(struct student)); 
}
输出为:
131072
4


131072=(10 00000000 00000000)b
因为遵循结构体对齐原则,s3跳过了2个字节。
s1s2                               s3
0  00 00000| 00000000| 01
0 0
原创粉丝点击