C语言位域

来源：互联网发布：胎动点点软件怎么样编辑：程序博客网时间：2024/05/21 11:07

有些数据在存储时并不需要占用一个完整的字节，只需要占用一个或几个二进制位即可。例如开关只有通电和断电两种状态，用 0和 1 表示足以，也就是用一个二进位。正是基于这种考虑，C语言又提供了一种叫做位域的数据结构。

在结构体定义时，我们可以指定某个成员变量所占用的二进制位数（Bit），这就是位域。请看下面的例子：

1.struct bs{

2. unsigned m;

3. unsigned n: 4;

4. unsigned char ch: 6;

5.}

:后面的数字用来限定成员变量占用的位数。成员 m没有限制，根据数据类型即可推算出它占用 4个字节（Byte）的内存。成员n、ch被:后面的数字限制，不能再根据数据类型计算长度，它们分别占用4、6位（Bit）的内存。

n、ch 的取值范围非常有限，数据稍微大些就会发生溢出，请看下面的例子：

1.#include <stdio.h>

3.int main(){

4. struct bs{

5. unsigned m;

6. unsigned n: 4;

7. unsigned char ch: 6;

8. } a = { 0xad, 0xE, '$'};

9. //第一次输出

10. printf("%#x, %#x, %c\n", a.m, a.n, a.ch);

11. //更改值后再次输出

12. a.m = 0xb8901c;

13. a.n = 0x2d;

14. a.ch = 'z';

15. printf("%#x, %#x, %c\n", a.m, a.n, a.ch);

16.

17. return 0;

18.}

运行结果：

0xad, 0xe, $

0xb8901c, 0xd, :

对于 n 和 ch，第一次输出的数据是完整的，第二次输出的数据是残缺的。

第一次输出时，n、ch的值分别是 0xE、0x24（'$'对应的 ASCII码为 0x24），换算成二进制是1110、10 0100，都没有超出限定的位数，能够正常输出。

第二次输出时，n、ch的值变为 0x2d、0x7a（'z'对应的 ASCII码为 0x7a），换算成二进制分别是10 1101、111 1010，都超出了限定的位数。超出部分被直接截去，剩下1101、11 1010，换算成十六进制为0xd、0x3a（0x3a对应的字符是 :）。

C语言标准规定，位域的宽度不能超过它所依附的数据类型的长度。通俗地讲，成员变量都是有类型的，这个类型限制了成员变量的最大长度，:后面的数字不能超过这个长度。

例如上面的 bs，n的类型是 unsigned int，长度为4 个字节，共计32 位，那么n 后面的数字就不能超过32；ch的类型是 unsigned char，长度为1 个字节，共计8 位，那么ch 后面的数字就不能超过8。

我们可以这样认为，位域技术就是在成员变量所占用的内存中选出一部分位宽来存储数据。

C语言标准还规定，只有有限的几种数据类型可以用于位域。在 ANSI C中，这几种数据类型是 int、signed int和 unsigned int（int默认就是 signed int）；到了C99，_Bool也被支持了。

关于C语言标准以及 ANSI C 和 C99 的区别，我们已在VIP教程《C语言的两套标准》中进行了讲解。

但编译器在具体实现时都进行了扩展，额外支持了 char、signed char、unsigned char以及 enum类型，所以上面的代码虽然不符合C语言标准，但它依然能够被编译器支持。

位域的存储

C语言标准并没有规定位域的具体存储方式，不同的编译器有不同的实现，但它们都尽量压缩存储空间。

位域的具体存储规则如下：

1) 当相邻成员的类型相同时，如果它们的位宽之和小于类型的 sizeof大小，那么后面的成员紧邻前一个成员存储，直到不能容纳为止；如果它们的位宽之和大于类型的 sizeof 大小，那么后面的成员将从新的存储单元开始，其偏移量为类型大小的整数倍。

以下面的位域 bs 为例：

1.#include <stdio.h>

3.int main(){

4. struct bs{

5. unsigned m: 6;

6. unsigned n: 12;

7. unsigned p: 4;

8. };

9. printf("%d\n", sizeof(struct bs));

10.

11. return 0;

12.}

运行结果：

m、n、p的类型都是 unsigned int，sizeof的结果为 4个字节（Byte），也即32 个位（Bit）。m、n、p的位宽之和为 6+12+4 = 22，小于32，所以它们会挨着存储，中间没有缝隙。

sizeof(struct bs) 的大小之所以为 4，而不是3，是因为要将内存对齐到4 个字节，以便提高存取效率，这将在《C语言和内存》专题的《C语言内存对齐，提高寻址效率》一节中详细讲解。

如果将成员 m 的位宽改为22，那么输出结果将会是8，因为22+12 = 34，大于32，n会从新的位置开始存储，相对 m的偏移量是 sizeof(unsigned int)，也即4 个字节。

如果再将成员 p 的位宽也改为22，那么输出结果将会是12，三个成员都不会挨着存储。

2) 当相邻成员的类型不同时，不同的编译器有不同的实现方案，GCC会压缩存储，而 VC/VS不会。

请看下面的位域 bs：

1.#include <stdio.h>

3.int main(){

4. struct bs{

5. unsigned m: 12;

6. unsigned char ch: 4;

7. unsigned p: 4;

8. };

9. printf("%d\n", sizeof(struct bs));

10.

11. return 0;

12.}

在 GCC 下的运行结果为4，三个成员挨着存储；在VC/VS 下的运行结果为12，三个成员按照各自的类型存储（与不指定位宽时的存储方式相同）。

m 、ch、p的长度分别是 4、1、4个字节，共计占用 9个字节内存，为什么在 VC/VS下的输出结果却是 12呢？这个疑问将在《C语言和内存》专题的《C语言内存对齐，提高寻址效率》一节中为您解开。

3) 如果成员之间穿插着非位域成员，那么不会进行压缩。例如对于下面的 bs：

1.struct bs{

2. unsigned m: 12;

3. unsigned ch;

4. unsigned p: 4;

5.};

在各个编译器下 sizeof 的结果都是 12。

通过上面的分析，我们发现位域成员往往不占用完整的字节，有时候也不处于字节的开头位置，因此使用&获取位域成员的地址是没有意义的，C语言也禁止这样做。地址是字节（Byte）的编号，而不是位（Bit）的编号。

无名位域

位域成员可以没有名称，只给出数据类型和位宽，如下所示：

1.struct bs{

2. int m: 12;

3. int : 20; //该位域成员不能使用

4. int n: 4;

5.};

无名位域一般用来作填充或者调整成员位置。因为没有名称，无名位域不能使用。

上面的例子中，如果没有位宽为 20 的无名成员，m、n将会挨着存储，sizeof(struct bs)的结果为 4；有了这20 位作为填充，m、n将分开存储，sizeof(struct bs)的结果为 8。

阅读全文

0 0