现在的位置: 首页 > 综合 > 正文

VC下的函数地址

2012年04月09日 ⁄ 综合 ⁄ 共 4360字 ⁄ 字号 评论关闭

VC下的函数地址

 

最近突然有一位同事问我关于虚拟继承(virtual inheritance)的问题,我记得在《虚拟与多型》(繁体版,1998年)里读到过,也许当时读的匆忙,一知半解的,所以现在也答不清楚。于是,我又拿起这本书重新读了第二章C++物件模型。这一次我读的仔细多了。在这章的结尾作者,侯捷老师留下了一个关于函数地址的疑问。在网上搜了一下,没有发现有人解答过这个问题,正好最近比较空,所以就下决心研究了一番。

 

这里我先重复一下三种取得函数地址的方法:

1.vtbl观察到的virutal member function的地址。这个地址可以用程序的方法得到,也可以使用调试器直接观察得到。我使用后者。

2.在调试器中直接把光标移到member function的名称上,或者在Watch窗口里,直接输入class::func(比如:A::func1),观察所得。我使用后者。

3.在程序中直接取得member function的地址。

 

书中留下的问题是,对于同一个函数,有时这三个地址不相同。准确地说,如果是virtual member function,这三个地址总是不同的。如果是non-virtual member function23也不相同。

 

先说说我的实验结果(所有实验都是在VC6上做的):每一个函数,不管是non-virtual member function,或是virtual member function,或是static member function,编译器都会为它生成一组代码,这组代码的第一条指令的位置,就是函数的地址,姑且称它为函数的实体地址(body address)。这就是使用第二种方法取得的地址。

 

但是,当程序的其他部分要呼叫某个函数的时候,编译器生成的代码不会直接使用函数的实体地址,而是使用一个另一个地址,姑且称它为函数的符号地址(symbol address)。每当需要呼叫某个函数,无论是non-virtual member functionstatic function,或是virtual member function,编译器生成的代码都是去呼叫函数的符号地址。在这个地址里,只有一条指令,就是跳转到函数的实体地址。

 

其实,通过跟踪我发现,编译器在内存的某个位置生成了一张表格(函数的入口表)。这个表格的每一项就是一个函数的符号地址,而表格每一项里的内容,就是一条跳转指令,跳转到相应的函数的实体地址。所以每一项里都是“E9 XX XX XX XX”的形式。

 

采用这种间接的、表格驱动的函数调用方法,我推测这与编译器(Compiler)和连接器(Linker)的实现方法有关。使用这种方法,编译器在生成调用代码的时候可以不知道函数的实体地址,先使用函数的符号地址。待到函数的实体被编译后,在连结(Link)过程时,再把函数的实体地址,以near jmp指令的形式写入函数入口表中相应的项,这样即使某个函数在多处被调用,最后也只需要修改一处即可。

 

当使用第一种方法查看virtual member function的地址时,得到就是函数的符号地址。当使用第三种方法取得non-virtual member function的地址时,得到也是函数的符号地址。但是当使用该方法取得virtual member function的地址时,得到的却是vcall thunk函数的符号地址,这里仍然使用了间接的调用方法。

 

使用vcall thunk可以使编译器在生成代码时,无需关心function ptr指向的函数是non-virtual member function还是virtual member function,都使用相同的调用方法。这种方法的过程大致如此:

 

1.寄存器准备

2.从右向左依次把参数压栈

3.this指针放入ecx寄存器

4.call 函数指针

 

对于virtual member function,函数指针指向的是vcall thunk函数的符号地址,由vcall thunk来呼叫真正的virtual member function。由于ecx中已经保存了this指针,通过它可以得到vtbl,所以只要知道virtual member functionvtbl中的indexvcall thunk就可以呼叫这个virtual member function。而这个index信息由编译器直接放在vcall thunk的代码中。所以,假设要取得A::SayB::TellC::Talk三个虚函数的地址,ABC三个类没有任何关系,SayTellvtbl中的index0Talkvtbl中的index1。那么编译器只会生成两个vcall thunkvcall’{0, {flat}}’vcall’{4, {flat}}’。显然,其中04正好是index*4,至于flat的含义我不是很清楚。SayTell都会使用第一个 thunkTalk会使用第二个thunk。因此,我们会发现,通过程序的方法取得的SayTell函数的地址总是相同的。

 

vcall thunk的实现非常简单,以vcall’{4,{flat}}’为例:

 

004011A0 8B 01                mov         eax,dword ptr [ecx]

004011A2 FF 60 08             jmp         dword ptr [eax+4]

 

第一行代码把vtbl的指针装入eax;第二行代码跳转到index1virtual member function的符号地址处,eax+4正好是vtbl中的第二项。

 

接下来说说我的实验过程:

定义两个类:ABBA派生而来:


A


B


class A

{

public:

       void func1(){

              printf("A::func1/n");

       }

 

       virtual void vfuncA(){

              printf("A::vfuncA/n");

       }

 

       virtual void vfuncB(){

              printf("A::vfuncB/n");

       }

};

 

class B:public A

{

public:

       void func2(){

              printf("B::func2/n");

       }

 

       virtual void vfuncB(){

              printf("B::vfuncB/n");

       }

};


 

 

接下来是main()函数,这里我主要通过调试器来观察结果:


#34 int main(int argc, char* argv[])

#35 {

#36        A a;

#37        B b;

#38        void (A::*pmf1)();

#39        pmf1 = A::func1;

#40

#41        void (B::*pmf2)();

#42        pmf2 = B::func2;

#43

#44        void (A::*pmvfA)();

#45        pmvfA = A::vfuncA;

#46

#47        void (A::*pmvfB)();

#48        pmvfB = A::vfuncB;

#49

#50        void (B::*pmvfB2)();

#51        pmvfB2 = B::vfuncB;

#52

#53        (a.*pmf1)();                                                   

#54

#55        (b.*pmf2)();

#56

#57        (a.*pmvfA)();

#58

#59        (a.*pmvfB)();

#60

#61        (b.*pmvfB)();

#62

#63        (b.*pmvfB2)();

#64

#65        return 0;

#66 }

 

在第53行处设定断点,然后执行程序,当程序停在断点处后,打开Watch窗口

图一

我们发现第一行和第二行显示的A::func1的地址是不一样的。第一行显示的是func1的实体地址,第二行显示的是符号地址。

 

继续观察:

图二

 

vtbl

pmvfX

class::func

A::vfuncA

0x00401005

0x00401028

0x00401260

A::vfuncB

0x00401032

0x0040102d

0x004012c0

B::vfuncB

0x0040100a

0x0040102d

0x00401380

 

vtbl列显示的是函数的符号地址,class::func列显示的是函数的实体地址,A::vfuncAA::vfuncBB::vfuncB三个函数各自有自己的符号地址和实体地址。pmvfX列显示的是vcall thunk的地址,因为A::vfuncBB::vfuncBvtbl中的index都是1,所以它们使用相同的thunkvcall ‘{4,{flat}}’

 

接下来打开Disassembly窗口,跟踪程序的调用过程:

 

首先,跟踪一下non-virtual member function的调用:

004010BB 8B F4          mov         esi,esp         //寄存器准备

004010BD 8D 4D FC   lea         ecx,[ebp-4]          //this指针装入ecx

004010C0 FF 55 F4      call        dword ptr [ebp-0Ch]//呼叫pmf1中保存的函数地址

 

使用Step into(F11),进入call指令调用的地址:

 

地址0x00401005开始的地方就是一张函数入口表,其中0x0040100F就是A::func1的符号地址,其中存储的5个字节,是一条JMP指令,跳转到A::func1的实体地址。可以和图一做一个比较。

继续单步执行:

 

我们终于到达了A::func1的函数体内部。

 

接下来再用同样的方法跟踪一次virtual member function的调用过程:

 

如果比较一下这一次的汇编代码和上一次调用的汇编代码,我们发现它们并没有什么区别,这就是vcall thunk的用处,它使的编译器在生成代码时,不用关心function ptr指向的是一个non-virtual member function,还是一个virtual member function

 

继续跟踪,进入call指令调用的函数:

 

即使在呼叫thunk函数,编译器仍然使用的是入口表,间接调用的方法。继续

 

抱歉!评论已关闭.