现在的位置: 首页 > 综合 > 正文

仅通过崩溃地址找出源代码的出错行

2013年08月22日 ⁄ 综合 ⁄ 共 2825字 ⁄ 字号 评论关闭

 

I386平台C函数调用边界的栈分配

当调用一个函数时,主调函数将参数以声明中相反的顺序压栈,然后将当前的代码执行指针(eip)压栈,然后跳转到被调函数的入口点。在被调函数中,通过将ebp加上一个偏移量来访问函数参数,以声明中的顺序(即压栈的相反顺序)来确定参数偏移量。被调函数返回时,弹出主调函数压在栈中的代码执行指针,跳回主调函数。再由主调函数恢复到调用前的栈。

函数的返回值不同于函数参数,通过寄存器传递。如果返回值类型可以放入32位变量,比如int、short、char、指针等类型,通过eax寄存器传递。如果返回值类型是64位变量,如_int64,同过edx+eax传递,edx存储高32位,eax存储低32位。如果返回值是浮点类型,如float和double,通过专用的浮点数寄存器栈的栈顶返回。如果返回值类型是用户自定义结构,或C++类类型,通过修改函数签名,以引用型参数的形式传回。

同样以最简单的函数为例:

void f(){

int i=g(1,2);

}

int g(int a,int b){

int c=a+b;

return c;

}

产生的汇编代码如下:

f:

push ebp ;备份ebp

mov ebp,esp ;建立栈底

sub esp,4 ;为i分配空间

mov eax,2 ;准备参数b的值2

push eax ;将b压栈

mov eax,1 ;准备参数a的值1

push eax ;将a压栈

call g ;调用g

add esp,8 ;将a和b一起弹出,恢复调用前的栈

mov dword ptr[ebp-4],eax ;将返回值保存进变量i

mov esp,ebp ;恢复栈顶

pop ebp ;恢复栈底

g:

push ebp ;备份ebp

mov ebp,esp ;建立栈底

sub esp,4 ;为局部变量c在栈中分配内存

mov eax,dword ptr[ebp+8] ;通过ebp间接读取参数a的值

mov ebx,dword ptr[ebp+12] ;通过ebp间接读取参数b的值

add eax,ebx ;将a和b的值相加,之和存在eax中

mov dword ptr[ebp-4],eax ;将和存入变量c

mov eax,dword ptr[ebp-4] ;将c作为返回值,代码优化后会删除此句

add esp,4 ;销毁c的内存

mov esp,ebp ;恢复栈顶

pop ebp ;恢复栈底

ret ;返回函数f

栈的内存布局如下:

100076:c <- g的esp

100080:f的ebp=100100 <- g的ebp

100084:f的eip

100088:a=1

100092:b=2

100096:i

100100:旧ebp <-f的ebp

100104:……

注意在函数g的汇编代码中,访问函数的局部变量和访问函数参数的区别。局部变量总是通过将ebp减去偏移量来访问,函数参数总是通过将ebp加上偏移量来访问。对于32位变量而言,第一个局部变量位于ebp-4,第二个位于ebp-8,以此类推,32位局部变量在栈中形成一个逆序数组;第一个函数参数位于ebp+8,第二个位于ebp+12,以此类推,32位函数参数在栈中形成一个正序数组。

由于函数返回值通过寄存器返回,不需要空间分配等操作,所以返回值的代价很低。基于这个原因,旧的C语法约定,不写明返回值类型的函数,返回值类型为int。这一规则与现行的C++语法相违背,因为C++中,不写明返回值类型的函数返回值类型为void,表示不返回值。这种语法不兼容性是为了加强C++的类型安全,但同时也带来了一些问题。

函数使用栈来保存局部变量,传递函数参数。进入函数时,函数在栈上为函数中的变量统一预留栈空间,将esp减去相应字节数。当函数执行流程途径变量声明语句时,如有需要就调用相应构造函数将变量初始化。当执行流程即将离开声明所在代码块时,以初始化的顺序的相反顺序逐一调用析构函数。当执行流程离开函数体时,将esp加上相应字节数,归还栈空间。

为了访问函数变量,必须有方法定位每一个变量。变量相对于栈顶esp的位置在进入函数体时就已确定,但是由于esp会在函数执行期变动,所以将esp的值保存在ebp中,并事先将ebp的值压栈。随后,在函数体中通过ebp减去偏移量来访问变量。以一个最简单的函数为例:

void f()

{

int a=0; //a的地址被分配为ebp-4

char c=1; //c的地址被分配为ebp-8

}

产生的汇编代码为:

push ebp ;将ebp压栈

mov ebp,esp ;ebp=esp 用栈底备份栈顶指针

sub esp,8 ;esp-=8,为a和c预留空间,包括边界对齐

mov dword ptr[ebp-4],0 ;a=0

mov byte ptr[ebp-8],1 ;c=1

add esp,8 ;esp+=8,归还a和c的空间

mov esp,ebp ;esp=ebp 从栈底恢复栈顶指针

pop ebp ;恢复ebp

ret ;返回

相应的内存布局是这样:

09992:c=1 <-esp

09996:a=0

10000:旧ebp <-ebp

10004:……

注:汇编中的pop、push、call、ret语句是栈操作指令,其功能可以用普通指令替换

push ebp相当于:

add esp,4

mov dword ptr[esp],ebp

pop ebp相当于:

mov ebp,dword ptr[esp]

sub esp,4

call fun_address相当于:

push eip

jmp fun_address

ret相当于

add esp,4

jmp dword ptr[esp-4]

带参数的ret

ret 8相当于

add esp,12

jmp dword ptr[esp-4]

所有局部变量都在栈中由函数统一分配,形成了类似逆序数组的结构,可以通过指针逐一访问。这一特点具有很多有趣性质,比如,考虑如下函数,找出其中的错误及其造成的结果:

void f()

{

int i,a[10];

for(i=0;i<=10;++i)a[i]=0;/An error occurs here!

}

这个函数中包含的错误,即使是C++新手也很容易发现,这是老生常谈的越界访问问题。但是这个错误造成的结果,是很多人没有想到的。这次的越界访问,并不会像很多新手预料的那样造成一个“非法操作”消息,也不会像很多老手估计的那样会默不作声,而是导致一个,呃,死循环!

错误的本质显而易见,我们访问了a[10],但是a[10]并不存在。C++标准对于越界访问只是说“未定义操作”。我们知道,a[10]是数组a所在位置之后的一个位置,但问题是,是谁在这个位置上。是i!

根据前面的讨论,i在数组a之前被声明,所以在a之前分配在栈上。但是,I386上栈是向下增长的,所以,a的地址低于i的地址。其结果是在循环的最后,a[i]引用到了i自己!接下来的事情就不难预见了,a[i],也就是i,被重置为0,然后继续循环的条件仍然成立……这个循环会一直继续下去,直到在你的帐单上产生高额电费,直到耗光地球电能,直到太阳停止燃烧……呵呵,或者直到聪明的你把程序Kill了……

 

抱歉!评论已关闭.