CC+语言 struct 深层探索——CC + language struct deep exploration

来源：互联网发布：犀牛软件验证码编辑：程序博客网时间：2024/05/18 13:08

1 struct 的巨大作用

面对一个人的大型C/C++程序时，只看其对struct 的使用情况我们就可以对其编写者的编程经验进行评估。因为一个大型的C/C++程序，势必要涉及一些(甚至大量)进行数据组合的结构体，这些结构体可以将原本意义属于一个整体的数据组合在一起。从某种程度上来说，会不会用struct，怎样用struct 是区别一个开发人员是否具备丰富开发经历的标志。

在网络协议、通信控制、嵌入式系统的C/C++编程中，我们经常要传送的不是简单的字节流（char型数组），而是多种数据组合起来的一个整体，其表现形式是一个结构体。经验不足的开发人员往往将所有需要传送的内容依顺序保存在char 型数组中，通过指针偏移的方法传送网络报文等信息。这样做编程复杂，易出错，而且一旦控制方式及通信协议有所变化，程序就要进行非常细致的修改。

一个有经验的开发者则灵活运用结构体，举一个例子，假设网络或控制协议中需要传送三种报文，其格式分别为packetA、packetB、packetC：

struct structA

{

int a;

char b;

};

struct structB

{

char a;

short b;

};

struct structC

{

int a;

char b;

float c;

}

优秀的程序设计者这样设计传送的报文：

struct CommuPacket

{

int iPacketType; //报文类型标志

union //每次传送的是三种报文中的一种，使用union

{

struct structA packetA; struct structB packetB;

struct structC packetC;

}

};

在进行报文传送时，直接传送struct CommuPacket 一个整体。

假设发送函数的原形如下：

// pSendData：发送字节流的首地址，iLen：要发送的长度

Send(char * pSendData, unsigned int iLen);

发送方可以直接进行如下调用发送struct CommuPacket 的一个实例sendCommuPacket：

Send( (char *)&sendCommuPacket , sizeof(CommuPacket) );

假设接收函数的原形如下：

// pRecvData：发送字节流的首地址，iLen：要接收的长度

//返回值：实际接收到的字节数

unsigned int Recv(char * pRecvData, unsigned int iLen)；

接收方可以直接进行如下调用将接收到的数据保存在struct CommuPacket 的一个实例recvCommuPacket 中：

Recv( (char *)&recvCommuPacket , sizeof(CommuPacket) );

接着判断报文类型进行相应处理：

switch(recvCommuPacket. iPacketType)

{

case PACKET_A:

… //A 类报文处理

break;

case PACKET_B:

… //B 类报文处理

break;

case PACKET_C:

… //C 类报文处理

break;

}

以上程序中最值得注意的是

Send( (char *)&sendCommuPacket , sizeof(CommuPacket) );

Recv( (char *)&recvCommuPacket , sizeof(CommuPacket) );

中的强制类型转换：(char *)&sendCommuPacket、(char *)&recvCommuPacket，先取地址，再转化为char 型指针，这样就可以直接利用处理字节流的函数。

利用这种强制类型转化，我们还可以方便程序的编写，例如要对sendCommuPacket 所处内存初始化为0，可以这样调用标准库函数memset()：

memset((char *)&sendCommuPacket,0, sizeof(CommuPacket));

2 struct的成员对齐

Intel、微软等公司曾经出过一道类似的面试题：

#include <iostream.h>

#pragma pack(8)

struct example1

{

short a;

long b;

};

struct example2

{

char c;

example1 struct1;

short e;

};

#pragma pack()

int main(int argc, char* argv[])

{

example2 struct2;

cout << sizeof(example1) << endl;

cout << sizeof(example2) << endl;

cout << (unsigned int)(&struct2.struct1) - (unsigned int)(&struct2) << endl;

return 0;

}

问程序的输入结果是什么？

答案是：

8 16 4

不明白？还是不明白？下面一一道来：

2.1 自然对界

struct 是一种复合数据类型，其构成元素既可以是基本数据类型（如int、long、float 等）的变量，也可以是一些复合数据类型（如array、struct、union 等）的数据单元。对于结构体，编译器会自动进行成员变量的对齐，以提高运算效率。缺省情况下，编译器为结构体的每个成员按其自然对界（natural alignment）条件分配空间。各个成员按照它们被声明的顺序在内存中顺序存储，第一个成员的地址和整个结构的地址相同。

自然对界(natural alignment)即默认对齐方式，是指按结构体的成员中size 最大的成员对齐。

例如：

struct naturalalign

{

char a;

short b;

char c;

};

在上述结构体中，size 最大的是short，其长度为2 字节，因而结构体中的char 成员a、c 都以2 为单位对齐，sizeof(naturalalign)的结果等于6；

如果改为：

struct naturalalign

{

char a;

int b;

char c;

};

其结果显然为12。

2.2 指定对界

一般地，可以通过下面的方法来改变缺省的对界条件：

· 使用伪指令#pragma pack (n)，编译器将按照n 个字节对齐；

· 使用伪指令#pragma pack ()，取消自定义字节对齐方式。

注意：如果#pragma pack (n)中指定的n 大于结构体中最大成员的size，则其不起作用，结构体仍然按照size 最大的成员进行对界。

例如：

#pragma pack (n)

struct naturalalign

{

char a;

int b;

char c;

};

#pragma pack ()

当n 为4、8、16 时，其对齐方式均一样，sizeof(naturalalign)的结果都等于12。而当n 为2时，其发挥了作用，使得sizeof(naturalalign)的结果为6。

在VC++ 6.0 编译器中，我们可以指定其对界方式（见图1），其操作方式为依次选择projetct >setting > C/C++菜单，在struct member alignment 中指定你要的对界方式。

图1 在VC++ 6.0 中指定对界方式

另外，通过__attribute((aligned (n)))也可以让所作用的结构体成员对齐在n 字节边界上，但是它较少被使用，因而不作详细讲解。

2.3 面试题的解答

至此，我们可以对Intel、微软的面试题进行全面的解答。程序中第2 行#pragma pack (8)虽然指定了对界为8，但是由于struct example1 中的成员最大size 为4（long 变量size 为4），故struct example1 仍然按4 字节对界，struct example1 的size为8，即第18 行的输出结果；

struct example2 中包含了struct example1，其本身包含的简单数据成员的最大size 为2（short变量e），但是因为其包含了struct example1，而struct example1 中的最大成员size 为4，structexample2 也应以4 对界，#pragma pack (8)中指定的对界对struct example2 也不起作用，故19 行的输出结果为16；

由于struct example2 中的成员以4 为单位对界，故其char 变量c 后应补充3 个空，其后才是成员struct1 的内存空间，20 行的输出结果为4。

3 C 和C++间struct 的深层区别

3.1 在C++语言中struct 具有了“类” 的功能

其与关键字class 的区别在于struct 中成员变量和函数的默认访问权限为public，而class 的为private。

例如，定义struct 类和class 类：

struct structA

{

char a;

…

}

class classB

{

char a;

…

}

则：

structA a;

a.a = 'a'; //访问public 成员，合法

classB b;

b.a = 'a'; //访问private 成员，不合法

许多文献写到这里就认为已经给出了C++中struct 和class 的全部区别，实则不然，另外一点需要注意的是：

C++中的struct 保持了对C 中struct 的全面兼容（这符合C++的初衷——“a better c”），因而，下面的操作是合法的：

//定义struct

struct structA

{

char a;

char b;

int c;

};

但是，C++毕竟是一种面向对象的程序设计语言，为了支持函数的重载，C++对全局函数的处理方式与C有明显的不同。

3.2 从标准头文件说起

某企业曾经给出如下的一道面试题：

为什么标准头文件都有类似以下的结构？

#ifndef __INCvxWorksh

#define __INCvxWorksh

#ifdef __cplusplus

extern "C"

{

#endif /*...*/

#ifdef __cplusplus

}

#endif

#endif /* __INCvxWorksh */

分析：

显然，头文件中的编译宏“#ifndef __INCvxWorksh、#define __INCvxWorksh、#endif” 的作用是防止该头文件被重复引用。那么：

#ifdef __cplusplus

extern "C"

{

#endif

#ifdef __cplusplus

}

#endif

的作用又是什么呢？我们将在下文一一道来。

3.3 深层揭密extern "C"

extern "C" 包含双重含义，从字面上即可得到：

首先，被它修饰的目标是“extern”的；

其次，被它修饰的目标是“C”的。让我们来详细解读这两重含义。

（1）被extern "C"限定的函数或变量是extern 类型的；

extern 是C/C++语言中表明函数和全局变量作用范围（可见性）的关键字，该关键字告诉编译器，其声明的函数和变量可以在本模块或其它模块中使用。

记住，下列语句：

extern int a;

仅仅是一个变量的声明，其并不是在定义变量a，并未为a 分配内存空间。变量a 在所有模块中作为一种全局变量只能被定义一次，否则会出现连接错误。

通常，在模块的头文件中对本模块提供给其它模块引用的函数和全局变量以关键字extern 声明。

例如，如果模块B 欲引用该模块A 中定义的全局变量和函数时只需包含模块A 的头文件即可。这样，模块B 中调用模块A 中的函数时，在编译阶段，模块B 虽然找不到该函数，但是并不会报错；它会在连接阶段中从模块A 编译生成的目标代码中找到此函数。

与extern 对应的关键字是static，被它修饰的全局变量和函数只能在本模块中使用。因此，一个函数或变量只可能被本模块使用时，其不可能被extern “C”修饰。

（2）被extern "C"修饰的变量和函数是按照C 语言方式编译和连接的；未加extern “C”声明时的编译方式首先看看C++中对类似C 的函数是怎样编译的。

作为一种面向对象的语言，C++支持函数重载，而过程式语言C 则不支持。函数被C++编译后在符号库中的名字与C 语言的不同。

例如，假设某个函数的原型为：

void foo( int x, int y );

该函数被C 编译器编译后在符号库中的名字为_foo，而C++编译器则会产生像_foo_int_int 之类的名字（不同的编译器可能生成的名字不同，但是都采用了相同的机制，生成的新名字称为“mangledname”）。

_foo_int_int 这样的名字包含了函数名、函数参数数量及类型信息，C++就是靠这种机制来实现函数重载的。例如，在C++中，函数void foo( int x, int y )与void foo( int x, float y )编译生成的符号是不相同的，后者为_foo_int_float。

同样地，C++中的变量除支持局部变量外，还支持类成员变量和全局变量。用户所编写程序的类成员变量可能与全局变量同名，我们以"."来区分。而本质上，编译器在进行编译时，与函数的处理相似，也为类中的变量取了一个独一无二的名字，这个名字与用户程序中同名的全局变量名字不同。

未加extern "C"声明时的连接方式

假设在C++中，模块A 的头文件如下：

// 模块A 头文件 moduleA.h

#ifndef MODULE_A_H

#define MODULE_A_H

int foo( int x, int y );

#endif

在模块B 中引用该函数：

// 模块B 实现文件 moduleB.cpp

#include "moduleA.h"

foo(2,3);

实际上，在连接阶段，连接器会从模块A 生成的目标文件moduleA.obj 中寻找_foo_int_int 这样的符号！

加extern "C"声明后的编译和连接方式

加extern "C"声明后，模块A 的头文件变为：

// 模块A 头文件 moduleA.h

#ifndef MODULE_A_H

#define MODULE_A_H

extern "C" int foo( int x, int y );

#endif

在模块B 的实现文件中仍然调用foo( 2,3 )，其结果是：

（1）模块A 编译生成foo 的目标代码时，没有对其名字进行特殊处理，采用了C 语言的方式；

（2）连接器在为模块B 的目标代码寻找foo(2,3)调用时，寻找的是未经修改的符号名_foo。

如果在模块A 中函数声明了foo 为extern "C"类型，而模块B 中包含的是extern int foo( int x,int y ) ，则模块B 找不到模块A 中的函数；反之亦然。

所以，可以用一句话概括extern “C”这个声明的真实目的（任何语言中的任何语法特性的诞生都不是随意而为的，来源于真实世界的需求驱动。我们在思考问题时，不能只停留在这个语言是怎么做的，还要问一问它为什么要这么做，动机是什么，这样我们可以更深入地理解许多问题）：

实现C++与C 及其它语言的混合编程。

明白了C++中extern "C"的设立动机，我们下面来具体分析extern "C"通常的使用技巧。

3.4 extern "C"的惯用法

（1）在C++中引用C 语言中的函数和变量，在包含C 语言头文件（假设为cExample.h）时，需进行下列处理：

extern "C"

{

#include "cExample.h"

}

而在C 语言的头文件中，对其外部函数只能指定为extern 类型，C 语言中不支持extern "C"声明，在.c 文件中包含了extern "C"时会出现编译语法错误。笔者编写的C++引用C 函数例子工程中包含的三个文件的源代码如下：

/* c 语言头文件：cExample.h */

#ifndef C_EXAMPLE_H

#define C_EXAMPLE_H

extern int add(int x,int y);

#endif

/* c 语言实现文件：cExample.c */

#include "cExample.h"

int add( int x, int y )

{

return x + y;

}

// c++实现文件，调用add：cppFile.cpp

extern "C"

{

#include "cExample.h"

}

int main(int argc, char* argv[])

{

add(2,3);

return 0;

}

如果C++调用一个C 语言编写的.DLL 时，当包括.DLL 的头文件或声明接口函数时，应加extern "C"{ }。

（2）在C 中引用C++语言中的函数和变量时，C++的头文件需添加extern "C"，但是在C 语言中不能直接引用声明了extern "C"的该头文件，应该仅将C 文件中将C++中定义的extern "C"函数声明为extern 类型。

笔者编写的C 引用C++函数例子工程中包含的三个文件的源代码如下：

//C++头文件 cppExample.h

#ifndef CPP_EXAMPLE_H

#define CPP_EXAMPLE_H

extern "C" int add( int x, int y );

#endif

//C++实现文件 cppExample.cpp

#include "cppExample.h"

int add( int x, int y )

{

return x + y;

}

/* C 实现文件 cFile.c

/* 这样会编译出错：#include "cExample.h" */

extern int add( int x, int y );

int main( int argc, char* argv[] )

{

add( 2, 3 );

return 0;

}

如果深入理解了第3 节中所阐述的extern "C"在编译和连接阶段发挥的作用，就能真正理解本节所阐述的从C++引用C 函数和C 引用C++函数的惯用法。对第4 节给出的示例代码，需要特别留意各个细节。