缓冲区溢出攻击实验(一)

来源:互联网 发布:netsh绑定mac 编辑:程序博客网 时间:2024/06/05 18:14

          无聊之余,想弄一下缓冲区溢出实验,之前一直听说这个,也没有亲自动手一下,发现真正弄起来的时候还是没那么简单的,其实学到的东西还是不少的。特此记下学习的过程。

一、基础知识

       这一部分主要是关于程序内存布局相关的知识,也涉及少量at&t汇编、gdb调试、gcc编译的知识。再次说明本人科班出生,所以在有些问题上要比科班出身的要纠结得多,但职业生涯还长,只要慢慢学习,静下心来,总能把问题解决。并且,我坚信在未来我能成为一名合格的程序猿和安全攻城狮。好的,言归正传,说知识点;

1、at&t汇编

        决定弄这个缓冲区实验之前,我还是花了10来天把汇编语言学习了一下,主要看的是王爽编写的《汇编语言》,其实选择这本书的原因不是因为它是什么圣经,而是觉得它薄。把这本汇编大致扫了一遍之后,开始干具体的实验细节,具体是参照的《Smashing The Stack For Fun And Profit》。曾近以为看懂一点8086汇编,应该很容易上手AT&T汇编,然而菜鸟发现自己想多了,还得变弄变查AT&T汇编语句。

       AT&T汇编的细节不在这里解释,主要可以参看资料:相关资料及全部源代码这是后面我的源码下载地址,同时把资料上传了上去。但是,这里是说一下几个特殊的语句,也就是我很费解的部分;

        lea src ,add指令:手册是说的是传送地址,简单一句话,我没有理解,一个博文上写的很好:地址是:深入理解计算机系统(3.4)---算数与逻辑运算指令详解,我还是复述一下上面的内容:

      lea 4(%edx,%ex,4),%eax和movl 4(%edx,%edx,4),%eax的区别 “假设%edx寄存器的值为x的话,那么lea 4(%edx,%ex,4),%eax这条指令的作用就是将 4 + x + 4x = 5x + 4赋给%eax寄存器。它和mov指令的区别就在于,假设是movl 4(%edx,%edx,4),%eax这个指令,它的作用是将内存地址为5x+4的内存区域的值赋给%eax寄存器,而leal指令只是将5x+4这个地址赋给目的操作数%eax而已,它并不对存储器进行引用的值的计算。”上面的博文中还有详尽的图文描述,为了方便,我一并摘下;假设执行指令之前,寄存器和存储器的状态如图1,则执行了movl 4(%edx,%edx,4),%eax后,寄存器和存储器的状态如图2,而执行了lea指令后,寄存器和存储器的状态如图3;

 

        图1:执行前        

 

图2:执行了move


图3:执行了lea

         好了,汇编知识只记录这么一点,后面用的汇编只能会给出解释或者注释;

2、gdb调试知识

       以前基本没有在Linux开发的经验,写程序都是IDE中进行的,所以没有gdb调试的经历;这里用到的gdb知识我也是现查现用的,所以这里不会给出什么知识补充;就贴上几个当时用的链接地址,上面有一些gdb的知识;用gdb调试程序(五)gdb查看内存地址和栈中的值以及gdb调试基础(2)汇编相关顺便记下用的调试关键词:1.gdb +filename(可执行文件)   2.disassemble +函数名(获取函数对应的反汇编语句和语句地址)   3.display  在单步运行的时候获取寄存器的值;    4.x /[nuf]+地址(查看地址中的内容)  5.print +&变量名(获得变量的地址,gcc编译开启-g选项)     6.print +变量名(查看变量值) ;用到其他指令略。

3、gcc编译相关知识:

        gcc编译有一堆选项,具体每个选项的作用不在这里意义罗列,其实我也不怎么清楚,知识现用现查,这里介绍几个后面用的编译选项;  

-fstack-protector
启用堆栈保护,不过只为局部变量中含有 char 数组的函数插入保护代码
-fstack-protector-all
启用堆栈保护,为所有函数插入保护代码
-fno-stack-protector
禁用堆栈保护
-O[n]启用优化
      

4、还涉及一些gcc中的一些栈保护话题,后面再进行介绍;

5、程序内存布局

       程序加载到cup执行过程中,会对程序的不同部分放入不同的地方,内存布局如图4;集体用法不做介绍,可查阅相关资料,值得提出的是,本文所说的缓冲区溢出攻击针对的是栈区;栈:存放程序形参和局部变量。

 

          图4:程序内存布局   

       下图给出了一个函数调用过程的例子,函数调用过程的参数传递、返回地址压栈、以及返回时的现场恢复都可以从图5和图6得到一些启示;这里不做具体说明:  

  

 图5:函数调用

图6:函数调用栈变化

二、攻击过程详解

1、如何获取函数返回地址

        缓冲区溢出攻击:由于c/c++对数据没有越界检查,对于函数中的局部变量是存储在栈中的,如图6所示;如果一个函数中的局部变量中存在数据;那么攻击者可以尝试向该数据中写入超过数组长度的数据,这样就会造成数据越界,而没有做数据越界检查的程序并不能发觉这一点。于是溢出的数据会继续“入栈”,只要设计好写入的数据,就可以覆盖原先程序中的其他局部变量和ebp寄存器(图6)以及调用前已经压栈的返回地址。这样,如果设计写入的数据,使得“被覆盖的返回地址”栈处的内容为“指向恶意程序的地址(或shell)”,函数返回时将不再返回到原先调用它的语句的下一条语句处,而是返回到了恶意程序地址处,这样,恶意程序就得到了执行或者是获得了shell。那么,重要的就是获得栈中存储“返回地址”的单元的地址,然后修改这个返回地址,就可以导致程序执行流程发生改变。那么怎么才能获得存储“返回地址”栈单元的地址?下面以一个有漏洞的demo进行研究;

程序1:example1.c

#include<stdio.h>void function(int a,int b,int c){char buffer1[5];char buffer2[10];int *ret;ret=(int*)(buffer1+13);(*ret)+=8;}void main(){int x;x=0;function(1,2,3);x=1;printf("%d\n",x);}
编译:gcc -g  -O0 -fno-stack-protector -o  example1 example1.c,对程序进行反汇编,得带汇编代码如下:

          

     图7:main  

   

图8:function

       从example1.c源文件中可以看到,function()函数申请了三个局部变量buffer1[5]、buffer2[10]、ret,根据前面的程序内存布局方面的知识,这三个变量是存储在程序的栈空间的,并且存在数组,那么就是存在被攻击的风险的,这里先不讨论工具细节,我们映入了ret变量,为指向int形的指针;后面我们通过分析把ret指针指向function()函数的返回地址;通过改变ret指向的内存单元(也就是栈中存储的function的返回地址)的内容,就可以改变程序的执行流程。

       我们先看看程序正常执行情况下,main()函数中的printf()打印的x值为多少,很明显:1;然而我么需要通过ret变量来改变程序的执行流程,使得function()函数执行之后,x=1这一条语句跳过来说明我们修改了function的返回地址;具体来说,就是通过下面的语句改变了程序的执行流程;

ret=(int*)(buffer1+13);
我们先暂时忽略程序为什么上面这条语句改变了程序执行流程;假定我们已经会得了程序的返回地址之后,怎么使得x=1这一条语句执行的时候被跳过;

      根据程序内存布局方面的知识,在function()函数返回的时候,是需要"恢复现场"的,即从栈里面取出function()h函数下一条指令的地址,然后程序执行流程跳转到此地址处,对用的汇编解释就是:pop eax;mov eax,eip(注意只是解释,并没有这样的指令);那么要让程序跳过eax,只需知道x=1;下一条语句的地址,然后把它写入ret指向的内存单元即可。

      从main()函数的汇编可以看到,执行call指令后,压入栈中的地址应该是:0x08048067(图7),而x=1对应的关键汇编指令为:movl $0x1,0x1c(esp);那么我们把栈中返回地址(即ret中)的内容改为movl $0x1,0x1c(esp)指令的一条语句对应的地址即可,当然程序可以这么写:(*ret)=0x0804806f,为了避免硬编码我们采用:

(*ret)+=8;
达到和上面语句一样的效果;
      接下来解释为什么ret指向了程序的返回地址,也就是上面example1.c中最关键的一条代码;

      按照刚学的西电李老师《Linux内核分析》课上的内容(图6);程序返回地址相对buffer1的地址偏移量量应该是:buffer1的大小+放ebp栈单元的大小;根据4字节对齐规则,就是8+4=12;所以返回地址ret应该是这样的:

ret=buffer1+12;
但是经过试验发现,并不是这样的。

没办法,只能打开看function()的汇编来寻找到底ret相对buffer的偏移是多少,奈何汇编新手,看半天试半天还是分析错了,好吧,上必杀技gdb,最终得到ret相对buffer的地址偏移是:13。干!居然不是4的倍数,应该gcc做了什么优化,那就是接受它吧。这样,有了这条语句来获得function()函数的返回地址:

ret=(int*)(buffer1+13);
默默的试验下,结果如下:


这下结果对了,返回地址顺利get,并且还修改了返回地址。虽然结果对了,怎么止于此,还得看看汇编function的汇编:

lea -0x9(%ebp),%eaxadd $0xd,%eax
由于function()源代码中有一行:

ret=(int*)(buffer1+13);
再看上面汇编第二行,瞬间对应,再看第一行:瞬间知道eax相对ebp的偏移量-9,所以return相对buffer1偏移量:9+4=13;为毛当时没看出来!!!

好了,这部分先写到这,下面就是要研究return地址应该指向什么样的代码,从实验角度,我们恶意代码就是获得shell。啰嗦了这么多,只怪自己太弱,只能写详尽点了。。。




1 0
原创粉丝点击