Printf相关问题

来源：互联网发布：怎样发淘宝链接给好友编辑：程序博客网时间：2024/05/23 01:35

问题引发

int main(){int a = "hello";int b = "world";printf("%s %s %s", a, b);return 0;}

这段代码会出现什么问题呢？参数不够的情况下，编译器会怎么处理，这里便涉及到printf的参数传递的问题:

printf是怎么传递参数的？通过栈还是寄存器？
如果参数不匹配，是在编译期间发现还是运行期间，编译器如何处理的？

这儿有篇博客，主要是将函数调用的一些规则，讲的很详细[http://www.searchtb.com/2013/03/x86-64_register_and_function_frame.html][1]
这篇博客清楚地讲了x86参数的传递情况，这里有个信息非常重要，就是gcc编译器在x86-64架构的处理器上允许栈访问栈外空间，这是在ABI上进行规定的。这应该就解释了printf()当参数不足时编译器不对参数不足的情况进行报错的问题。这里附上最开始的代码相应的汇编代码（x86-64, mac OS操作系统）：

    .section    __TEXT,__text,regular,pure_instructions    .globl  _main    .align  4, 0x90_main:                                  ## @main    .cfi_startproc## BB#0:    pushq   %rbpLtmp2:    .cfi_def_cfa_offset 16Ltmp3:    .cfi_offset %rbp, -16    movq    %rsp, %rbpLtmp4:    .cfi_def_cfa_register %rbp    subq    $32, %rsp    leaq    L_.str2(%rip), %rdi    leaq    L_.str1(%rip), %rax    leaq    L_.str(%rip), %rcx    movl    $0, -4(%rbp)    movq    %rcx, -16(%rbp)    movq    %rax, -24(%rbp)    movq    -16(%rbp), %rsi    movq    -24(%rbp), %rdx    movb    $0, %al    callq   _printf    movl    $0, %r8d    movl    %eax, -28(%rbp)         ## 4-byte Spill    movl    %r8d, %eax    addq    $32, %rsp    popq    %rbp    retq    .cfi_endproc    .section    __TEXT,__cstring,cstring_literalsL_.str:                                 ## @.str    .asciz  "hello  "L_.str1:                                ## @.str1    .asciz  "tencent\n"L_.str2:                                ## @.str2    .asciz  "%s%s%s".subsections_via_symbols

分析

从上面的汇编代码中可看出，x86-64确实是通过寄存器进行参数传递的，正如上面链接的博客《x86-64的寄存器和堆栈》中提到的，参数传递是通过寄存器%rdi，%rsi，%rdx，%rcx依次保存参数的，但是恰巧的是，当需要第四个参数匹配%s时，寄存器%rcx由于在向局部变量char *a分配内存栈空间的时候用到了，所以正好％rcx中存放的是char *a的内容。

下面是copy的一段关于printf用堆栈进行参数传递的一些解释，对理解可变参数的实现有帮助，但是猜测如果处理器是采用堆栈进行参数传递，会出现调用函数不能正常返回的情况。
C语言中可变参数的用法
kevintz

我们在C语言编程中会遇到一些参数个数可变的函数,例如printf()这个函数,它的定义是这样的:
int printf( const char* format, …);
它除了有一个参数format固定以外,后面跟的参数的个数和类型是可变的,例如我们可以有以下不同的调用方法:
printf(“%d”,i);
printf(“%s”,s);
printf(“the number is %d ,string is:%s”, I, s);
究竟如何写可变参数的C函数以及这些可变参数的函数编译器是如何实现的呢?本文就这个问题进行一些探讨,希望能对大家有些帮助.会C++的网友知道这些问题在C++里不存在,因为C++具有多态性.但C++是C的一个超集,以下的技术也可以用于C++的程序中.限于本人的水平,文中如果有不当之处,请大家指正.

(一)写一个简单的可变参数的C函数

下面我们来探讨如何写一个简单的可变参数的C函数.写可变参数的C函数要在程序中用到以下这些宏:

void va_start( va_list arg_ptr, prev_param ); type va_arg( va_list arg_ptr, type ); void va_end( va_list arg_ptr );

va在这里是variable-argument(可变参数)的意思.
这些宏定义在stdarg.h中,所以用到可变参数的程序应该包含这个头文件.下面我们写一个简单的可变参数的函数,改函数至少有一个整数参数,第二个参数也是整数,是可选的.函数只是打印这两个参数的值.

void simple_va_fun(int I, …) { va_list arg_ptr; int j=0; va_start(arg_ptr, i); j=va_arg(arg_ptr, int); va_end(arg_ptr); printf("%d %d\n", I, j); return; }

我们在程序中可以这样调用:
simple_va_fun(100);
simple_va_fun(100,200);
从这个函数的实现可以看到,我们使用可变参数应该有以下步骤:
1)首先在函数里定义一个va_list型的变量,这里是arg_ptr,这个变量是指向参数的指针.
2)然后用va_start宏初始化变量arg_ptr,这个宏的第二个参数是第一个可变参数的前一个参数,是一个固定的参数.
3)然后用va_arg返回可变的参数,并赋值给整数j. va_arg的第二个参数是你要返回的参数的类型,这里是int型.
4)最后用va_end宏结束可变参数的获取.然后你就可以在函数里使用第二个参数了.如果函数有多个可变参数的,依次调用va_arg获取各个参数.
如果我们用下面三种方法调用的话,都是合法的,但结果却不一样:
1)simple_va_fun(100);
结果是:100 -123456789(会变的值)
2)simple_va_fun(100,200);
结果是:100 200
3)simple_va_fun(100,200,300);
结果是:100 200
我们看到第一种调用有错误,第二种调用正确,第三种调用尽管结果正确,但和我们函数最初的设计有冲突.下面一节我们探讨出现这些结果的原因和可变参数在编译器中是如何处理的.

(二)可变参数在编译器中的处理

我们知道va_start,va_arg,va_end是在stdarg.h中被定义成宏的,由于1)硬件平台的不同 2)编译器的不同,所以定义的宏也有所不同,下面以VC++中stdarg.h里x86平台的宏定义摘录如下(‘\’号表示折行):

typedef char * va_list; #define _INTSIZEOF(n) \ ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) ) #define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) ) #define va_arg(ap,t) \ ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) #define va_end(ap) ( ap = (va_list)0 )

定义_INTSIZEOF(n)主要是为了某些需要内存的对齐的系统.C语言的函数是从右向左压入堆栈的,图(1)是函数的参数在堆栈中的分布位置.我们看到va_list被定义成char*,有一些平台或操作系统定义为void*.再看va_start的定义,定义为&v+_INTSIZEOF(v),而&v是固定参数在堆栈的地址,所以我们运行va_start(ap, v)以后,ap指向第一个可变参数在堆栈的地址,如图:

  |高地址|  |----------------------------－－|   |函数返回地址                      |   |-------------------------------|    |-------------------------------|   |第n个参数(第一个可变参数)    |   |-------------------------------| < --va_start后ap指向   |第n-1个参数(最后一个固定参数)|   |----------------------------|< -- &v   |低地址｜

图( 1 )

然后,我们用va_arg()取得类型t的可变参数值,以上例为int型为例,我们看一下va_arg取int型的返回值:
j= ( (int)((ap += _INTSIZEOF(int))-_INTSIZEOF(int)) );
首先ap+=sizeof(int),已经指向下一个参数的地址了.然后返回ap-sizeof(int)的int*指针,这正是第一个可变参数在堆栈里的地址(图2).然后用*取得这个地址的内容(参数值)赋给j.

  |高地址|  |-----------------------------|   |函数返回地址|   |-----------------------------|   |-----------------------------| < --va_arg后ap指向   |第n个参数(第一个可变参数)|   |-----------------------------| < --va_start后ap指向   |第n-1个参数(最后一个固定参数)    |   |-----------------------------|  |低地址| < -- &v

图( 2 )

最后要说的是va_end宏的意思,x86平台定义为ap=(char*)0;使ap不再指向堆栈,而是跟NULL一样.有些直接定义为((void*)0),这样编译器不会为va_end产生代码,例如gcc在linux的x86平台就是这样定义的.
在这里大家要注意一个问题:由于参数的地址用于va_start宏,所以参数不能声明为寄存器变量或作为函数或数组类型.
关于va_start, va_arg, va_end的描述就是这些了,我们要注意的是不同的操作系统和硬件平台的定义有些不同,但原理却是相似的.

(三)可变参数在编程中要注意的问题

因为va_start, va_arg, va_end等定义成宏,所以它显得很愚蠢,可变参数的类型和个数完全在该函数中由程序代码控制,它并不能智能地识别不同参数的个数和类型.
有人会问:那么printf中不是实现了智能识别参数吗?那是因为函数printf是从固定参数format字符串来分析出参数的类型,再调用va_arg的来获取可变参数的.也就是说,你想实现智能识别可变参数的话是要通过在自己的程序里作判断来实现的.
另外有一个问题,因为编译器对可变参数的函数的原型检查不够严格,对编程查错不利.如果simple_va_fun()改为:

void simple_va_fun(int I, …) { va_list arg_ptr; char *s=NULL; va_start(arg_ptr, i); s=va_arg(arg_ptr, char*); va_end(arg_ptr); printf("%d %s\n", I, s); return; }

可变参数为char*型,当我们忘记用两个参数来调用该函数时,就会出现core dump(Unix) 或者页面非法的错误(window平台).但也有可能不出错,但错误却是难以发现,不利于我们写出高质量的程序.
以下提一下va系列宏的兼容性.
System V Unix把va_start定义为只有一个参数的宏:
va_start(va_list arg_ptr);
而ANSI C则定义为:
va_start(va_list arg_ptr, prev_param);
如果我们要用system V的定义,应该用vararg.h头文件中所定义的宏,ANSI C的宏跟system V的宏是不兼容的,我们一般都用ANSI C,所以用ANSI C的定义就够了,也便于程序的移植.

小结:

可变参数的函数原理其实很简单,而va系列是以宏定义来定义的,实现跟堆栈相关.我们写一个可变函数的C函数时,有利也有弊,所以在不必要的场合,我们无需用到可变参数.如果在C++里,我们应该利用C++的多态性来实现可变参数的功能,尽量避免用C语言的方式来实现.

0 0