c程序的编译&条件编译（预处理阶段）

来源：互联网发布：同声传译知乎编辑：程序博客网时间：2024/05/21 09:13

一、c程序的编译过程

C源程序头文件－－>预编译处理(cpp)－－>编译程序本身－－>优化程序－－>汇编程序－－>链接程序-->可执行文件

编译，编译程序读取源程序（字符流），对之进行词法和语法的分析，将高级语言指令转换为功能等效的汇编代码，再由汇编程序转换为机器语言，并且按照操作系统对可执行文件格式的要求链接生成可执行程序。如果想看某个具体的编译过程，则可以分别使用-E,-S,-c和 -O。

1、执行命令

1.预处理
在该阶段，编译器将C源代码中的包含的头文件如stdio.h编译进来,可通过gcc 的选项 -E 进行查看

如：[root@localhost 0001]#gcc -E main.c -o main.i
将main.c预处理输出 main.i 文件

2.编译
这个阶段中，编译器首先要检查代码的规范性、是否有语法错误等，以确定代码的实际要做的工作。用户可以使用”-S”选项来进行查看，该选项只进行编译而不进行汇编，生成汇编代码。
选项 -S

如：[root@localhost 0001]# gcc –S main.i –o main.s
将预处理输出文件main.i汇编成main.s文件。

*3.优化程序

4.汇编
汇编阶段是把编译阶段生成的”.s”文件转成二进制目标代码.
选项 -c

如：[root@localhost 0001]#gcc –c main.s –o main.o
将汇编输出文件main.s编译输出main.o文件

5.链接
链接就是将不同部分的代码和数据收集和组合成为一个单一文件的过程,这个文件可被加载或拷贝到存储器执行.
在成功编译之后，就进入了链接阶段。
无选项链接
如：[root@localhost 0001]# gcc main.o –o main.exe
将编译输出文件main.o链接成最终可执行文件main.exe

链接可以执行与编译时(源代码被翻译成机器代码时),也可以执行与加载时(在程序被加载器加载到存储器并执行时),甚至执行与运行时,由应用程序来执行.在现代系统中,链接是由链接器自动执行的

.
链接器分为:静态链接器和动态链接器两种.
静态链接器
静态链接器以一组可重定位目标文件和命令行参数作为输入,生成一个完全链接的可以加载和运行的可执行目标文件作为输出.

静态链接器主要完成两个任务:
1>符号解析:目标文件定义和引用符号.符号解析的目的在于将每个符号引用和一个符号定义联系起来.
2>重定位:编译器和汇编器生成从地址零开始的代码和数据节.链接器通过把每个符号定义和一个存储器位置联系起来,然后修改所有对这些符号的引用,使得他们执行这个存储位置,从而重定位这些节.

动态链接器
动态链接方式下，函数的定义在动态链接库或共享对象的目标文件中。在编译的链接阶段，动态链接库只提供符号表和其他少量信息用于保证所有符号引用都有定义，保证编译顺利通过。动态链接器(ld-linux.so)链接程序在运行过程中根据记录的共享对象的符号定义来动态加载共享库，然后完成重定位。在此可执行文件被执行时，动态链接库的全部内容将被映射到运行时相应进程的虚地址空间。动态链接程序将根据可执行程序中记录的信息找到相应的函数代码。

2、执行作用

1.编译预处理，预处理过程读入源代码，语法检查和宏替换，取消注释和取消多余空白字符等，对其中的伪指令（以#开头的指令）和特殊符号进行处理伪指令主要包括以下四个方面：

（1）宏定义指令，即宏替换
（2）条件编译指令，伪指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件，将那些不必要的代码过滤掉
（3）头文件包含指令，预编译程序将把头文件中的定义统统都加入到它所产生的输出文件中，以供编译程序对之进行处理。包含到c源程序中的头文件可以是系统提供的，这些头文件一般被放在/usr/include目录下。
（4）特殊符号，预编译程序可以识别一些特殊的符号。例如在源程序中出现的LINE标识将被解释为当前行号（十进制数），FILE则被解释为当前被编译的C源程序的名称。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。

预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代，生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。

2.编译阶段经过预编译得到的输出文件中，将只有常量。如数字、字符串、变量的定义，以及C语言的关键字，如main,if,else,for,while,{,}, +,-,*,\，等等。预编译程序所要作得工作就是通过词法分析和语法分析，在确认所有的指令都符合语法规则之后，将其翻译成等价的中间代码表示或汇编代码。

3.优化处理，它不仅同编译技术本身有关，且同机器的硬件环境也有关系。优化一部分是对中间代码的优化。提高代码的执行效率，调整代码使代码简短易读，经过优化得到的汇编代码必须经过汇编程序的汇编转换成相应的机器指令，方可能被机器执行。

4.汇编过程，汇编过程实际上指把汇编语言代码翻译成目标机器指令的过程。对于被翻译系统处理的每一个C语言源程序，都将最终经过这一处理而得到相应的目标文件。目标文件中所存放的也就是与源程序等效的目标的机器语言代码。

目标文件由段组成。通常一个目标文件中至少有两个段：

代码段　该段中所包含的主要是程序的指令。该段一般是可读和可执行的，但一般却不可写。

数据段　主要存放程序中要用到的各种全局变量或静态的数据。一般数据段都是可读，可写，可执行的。

UNIX环境下主要有三种类型的目标文件：
（1）可重定位文件包含二进制代码和数据,其形式可以再编译时与其他可定位目标文件合并起来,创建一个可执行目标文件.
（2）共享的目标文件　这种文件存放了适合于在两种上下文里链接的代码和数据，,其形式可以被直接拷贝到存储器并执行

（3）可执行文件　一种特殊的可重定位目标文件,可以再加载或运行时,被动态地夹在到存储器并执行.　

编译器和汇编器生成可重定位目标文件(包括共享目标文件),链接器生成可执行目标文件.

5.链接程序由汇编程序生成的目标文件并不能立即就被执行，其中可能还有许多没有解决的问题。例如，某个源文件中的函数可能引用了另一个源文件中定义的某个符号（如变量或者函数调用等）；在程序中可能调用了某个库文件中的函数，等等。所有的这些问题，都需要经链接程序的处理方能得以解决。链接程序的主要工作就是将有关的目标文件彼此相连接，也即将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来，使得所有的这些目标文件成为一个能够诶操作系统装入执行的统一整体。

二、C语言条件编译&编译预处理阶段

1、C源程序－>编译预处理－>编译－>优化程序－>汇编程序－>链接程序－>可执行文件
其中编译预处理阶段，读取c源程序，对其中的伪指令（以#开头的指令）和特殊符号进行处理。或者说是扫描源代码，对其进行初步的转换，产生新的源代码提供给编译器。预处理过程先于编译器对源代码进行处理。
在C 语言中，并没有任何内在的机制来完成如下一些功能：在编译时包含其他源文件、定义宏、根据条件决定编译时是否包含某些代码。要完成这些工作，就需要使用预处理程序。尽管在目前绝大多数编译器都包含了预处理程序，但通常认为它们是独立于编译器的。预处理过程读入源代码，检查包含预处理指令的语句和宏定义，并对源代码进行响应的转换。预处理过程还会删除程序中的注释和多余的空白字符。
2、伪指令（或预处理指令）定义
预处理指令是以#号开头的代码行。#号必须是该行除了任何空白字符外的第一个字符。#后是指令关键字，在关键字和#号之间允许存在任意个数的空白字符。整行语句构成了一条预处理指令，该指令将在编译器进行编译之前对源代码做某些转换。下面是部分预处理指令：

<span style="font-family:Microsoft YaHei;font-size:14px;">    指令         用途    #           空指令，无任何效果    #include    包含一个源代码文件    #define     定义宏    #undef      取消已定义的宏    #if         如果给定条件为真，则编译下面代码    #ifdef      如果宏已经定义，则编译下面代码    #ifndef     如果宏没有定义，则编译下面代码    #elif       如果前面的#if给定条件不为真，当前条件为真，则编译下面代码，其实就是else if的简写    #endif      结束一个#if……#else条件编译块    #error      停止编译并显示错误信息</span>

3、预处理指令主要包括以下四个方面：
1、宏定义指令
宏定义了一个代表特定内容的标识符。预处理过程会把源代码中出现的宏标识符替换成宏定义时的值。宏最常见的用法是定义代表某个值的全局符号。宏的第二种用法是定义带参数的宏（宏函数），这样的宏可以象函数一样被调用，但它是在调用语句处展开宏，并用调用时的实际参数来代替定义中的形式参数。

1.1 #define指令
1.1.1 #define预处理指令用来定义宏。该指令最简单的格式是：声明一个标识符，给出这个标识符代表的代码（比如像圆周率这样的数）。在后面的源代码中，我们就可以使用定义的宏取代要使用的代码，举例如下：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例1#define MAX_NUM 10int array[MAX_NUM];for(i=0;i<MAX_NUM;i++) </span>

在这个例子中，对于阅读该程序的人来说，符号MAX_NUM就有特定的含义，它代表的值给出了数组所能容纳的最大元素数目。程序中可以多次使用这个值。作为一种约定，习惯上总是全部用大写字母来定义宏，这样易于把程序的宏标识符和一般变量标识符区别开来。如果想要改变数组的大小，只需要更改宏定义并重新编译程序即可。

1.1.2 使用宏的好处有两点：
一是使用方便。如下：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例2#define PAI 3.1415926</span>

PAI显然比3.1415926写着方便。

二是定义的宏有了意义，可读性强。如例1，MAX_NUM，望文生意便知是最大数量的意思，比单纯使用10这个数字可读性要强的多。

三是容易修改。如例1，如果在程序中有几十次会使用到MAX_NUM，修改只需要在宏定义里面修改一次就可以，否则你会修改到崩溃。

1.1.3 宏表示的值可以是一个常量表达式，允许宏嵌套（必须在前面已定义）。例如：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例3#define ONE 1#define TWO 2#define SUM(ONE+TWO)</span>

这里需要注意两点：
一是注意上面的宏定义使用了括号。尽管它们并不是必须的。但出于谨慎考虑，还是应该加上括号的。例如：
six=SUM*TWO;
预处理过程把上面的一行代码转换成：
six=(ONE+TWO)*TWO;
如果没有那个括号，就转换成six=ONE+TWO*TWO;了。

也就是说预处理仅是简单的字符替换，要时刻注意这一点，很多错误都会因此出现。

二是虽然我们举例用了#define ONE 1 这个例子，但是一般要求宏定义要有其实际意义，#define ONE 1这种没意义的宏定义是不推荐的。（大概是这么个意思，忘记具体怎么说了）

1.1.4 宏还可以代表一个字符串常量，例如：

<span style="font-family:Microsoft YaHei;font-size:14px;">#define VERSION "Version 1.0 Copyright(c) 2003"</span>

1.2 带参数的#define指令（宏函数）
带参数的宏和函数调用看起来有些相似。看一个例子：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例4#define Cube(x) (x)*(x)*(x)</span>

可以时任何数字表达式甚至函数调用来代替参数x。这里再次提醒大家注意括号的使用。宏展开后完全包含在一对括号中，而且参数也包含在括号中，这样就保证了宏和参数的完整性。看一个用法：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例4用法int num=8+2;volume=Cube(num);</span>

展开后为(8+2)*(8+2)*(8+2);
如果没有那些括号就变为8+2*8+2*8+2了。
下面的用法是不安全的：

<span style="font-family:Microsoft YaHei;font-size:14px;">volume=Cube(num++);</span>

如果Cube是一个函数，上面的写法是可以理解的。但是，因为Cube是一个宏，所以会产生副作用。这里的书写不是简单的表达式，它们将产生意想不到的结果。它们展开后是这样的：
volume=(num++)*(num++)*(num++);
很显然，结果是10*11*12,而不是10*10*10;
那么怎样安全的使用Cube宏呢？必须把可能产生副作用的操作移到宏调用的外面进行：
int num=8+2;
volume=Cube(num);
num++;

宏函数使用不当会出现一些难以发现的错误，请慎重使用。

1.3 #运算符
出现在宏定义中的#运算符把跟在其后的参数转换成一个字符串。有时把这种用法的#称为字符串化运算符。例如：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例5#define PASTE(n) "adhfkj"#nint main(){       printf("%s\n",PASTE(15));       return 0;}</span>

//输出adhfj15

宏定义中的#运算符告诉预处理程序，把源代码中任何传递给该宏的参数转换成一个字符串。所以输出应该是adhfkj15。

1.4 ##运算符（很少用）
##运算符用于把参数连接到一起。预处理程序把出现在##两侧的参数合并成一个符号。看下面的例子：

<span style="font-family:Microsoft YaHei;font-size:14px;">//例6#define NUM(a,b,c) a##b##c#define STR(a,b,c) a##b##cint main() {       printf("%d\n",NUM(1,2,3));       printf("%s\n",STR("aa","bb","cc"));       return 0; }</span>

//最后程序的输出为:
123
aabbcc
复制代码

2、条件编译指令。
程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。条件编译指令将决定那些代码被编译，而哪些是不被编译的。可以根据表达式的值或者某个特定的宏是否被定义来确定编译条件。
2.1 #if/#endif/#else/#elif指令
#if指令检测跟在制造另关键字后的常量表达式。如果表达式为真，则编译后面的代码，知道出现#else、#elif或#endif为止；否则就不编译。
#endif用于终止#if预处理指令。
#else指令用于某个#if指令之后，当前面的#if指令的条件不为真时，就编译#else后面的代码。

<span style="font-family:Microsoft YaHei;font-size:14px;">//例7#define DEBUG       //此时#ifdef DEBUG为真//#define DEBUG 0  //此时为假int main(){   #ifdef DEBUG      printf("Debugging\n");   #else      printf("Not debugging\n");   #endif   printf("Running\n");   return 0;}</span>

这样我们就可以实现debug功能，每次要输出调试信息前，只需要#ifdef DEBUG判断一次。不需要了就在文件开始定义#define DEBUG 0

#elif预处理指令综合了#else和#if指令的作用。

<span style="font-family:Microsoft YaHei;font-size:14px;">//例8#define TWOint main(){   #ifdef ONE          printf("1\n");   #elif defined TWO          printf("2\n");   #else          printf("3\n");   #endif}</span>

//输出结果是2。

2.2 #ifdef和#ifndef
这二者主要用于防止重复包含。我们一般在.h头文件前面加上这么一段：

<span style="font-family:Microsoft YaHei;font-size:14px;">//头文件防止重复包含//funcA.h#ifndef FUNCA_H#define FUNCA_H//头文件内容#end if</span>

这样，如果a.h包含了funcA.h，b.h包含了a.h、funcA.h，重复包含，会出现一些type redefination之类的错误。
#if defined等价于#ifdef; #if !defined等价于#ifndef

3、头文件包含指令。
采用头文件的目的主要是为了使某些定义可以供多个不同的C源程序使用。因为在需要用到这些定义的C源程序中，只需加上一条#include语句即可，而不必再在此文件中将这些定义重复一遍。预编译程序将把头文件中的定义统统都加入到它所产生的输出文件中，以供编译程序对之进行处理。
#include预处理指令的作用是在指令处展开被包含的文件。包含可以是多重的，也就是说一个被包含的文件中还可以包含其他文件。标准C编译器至少支持八重嵌套包含。预处理过程不检查在转换单元中是否已经包含了某个文件并阻止对它的多次包含，这个的处理办法上面已经给出。
在程序中包含头文件有两种格式：

<span style="font-family:Microsoft YaHei;font-size:14px;">  #include <my.h>  #include "my.h"</span>

第一种方法是用尖括号把头文件括起来。这种格式告诉预处理程序在编译器自带的或外部库的头文件中搜索被包含的头文件。第二种方法是用双引号把头文件括起来。这种格式告诉预处理程序在当前被编译的应用程序的源代码文件中搜索被包含的头文件，如果找不到，再搜索编译器自带的头文件。
采用两种不同包含格式的理由在于，编译器是安装在公共子目录下的，而被编译的应用程序是在它们自己的私有子目录下的。一个应用程序既包含编译器提供的公共头文件，也包含自定义的私有头文件。采用两种不同的包含格式使得编译器能够在很多头文件中区别出一组公共的头文件。
4、特殊符号。
预编译程序可以识别一些特殊的符号。预编译程序对于在源程序中出现的这些串将用合适的值进行替换。
4.1 __LINE__
注意，是双下划线，而不是单下划线。
__FILE__ 包含当前程序文件名的字符串
__LINE__ 表示当前行号的整数
__DATE__ 包含当前日期的字符串
__STDC__ 如果编译器遵循ANSI C标准，它就是个非零值
__TIME__ 包含当前时间的字符串

<span style="font-family:Microsoft YaHei;font-size:14px;">//例9#include<stdio.h>int main(){   printf("Hello World!\n");   printf("%s\n",__FILE__);   printf("%d\n",__LINE__);   return 0;}</span>

4.2 #line等
#error指令将使编译器显示一条错误信息，然后停止编译。
#line指令改变_LINE_与_FILE_的内容，它们是在编译程序中预先定义的标识符。
#pragma指令没有正式的定义。编译器可以自定义其用途。典型的用法是禁止或允许某些烦人的警告信息。

<span style="font-family:Microsoft YaHei;font-size:14px;">//例10,#line举例#line   100          //初始化行计数器 #include<stdio.h>    //行号100int main(){    printf("Hello World!\n");    printf("%d",__LINE__);    return 0;}</span>

//输出104

4、预编译程序所完成的基本上是对源程序的“替代”工作。经过此种替代，生成一个没有宏定义、没有条件编译指令、没有特殊符号的输出文件。这个文件的含义同没有经过预处理的源文件是相同的，但内容有所不同。下一步，此输出文件将作为编译程序的输出而被翻译成为机器指令。

小结：

宏定义的使用需要括号的使用，不然很容易出错!

宏定义的使用利弊权衡要清楚。

0 0

c程序的编译&条件编译 （预处理阶段）

c程序的编译&条件编译（预处理阶段）