现在的位置: 首页 > 综合 > 正文

为什么C++编译器不能支持对模板的分离式编译

2013年05月25日 ⁄ 综合 ⁄ 共 2568字 ⁄ 字号 评论关闭

为什么C++编译器不能支持对模板的分离式编译

 

刘未鹏(pongba)

C++的罗浮宫(http://blog.csdn.net/pongba)

 

首先,一个编译单元translation unit是指一个.cpp文件以及它所#include的所有.h文件,.h文件里的代码将会被扩展到包含它的.cpp文件里,然后编译器编译该.cpp文件为一个.obj文件(假定我们的平台是win32),后者拥有PEPortable Executablewindows可执行文件文件格式,并且本身包含的就已经是二进制码,但是不一定能够执行,因为并不保证其中一定有main函数。当编译器将一个工程里的所有.cpp文件以分离的方式编译完毕后,再由连接器linker进行连接成为一个.exe文件。

 

举个例子:

 

//---------------test.h-------------------//

void f();//这里声明一个函数f

 

//---------------test.cpp--------------//

#include”test.h”

void f()

{

…//do something

}  //这里实现出test.h中声明的f函数

 

//---------------main.cpp--------------//

#include”test.h”

int main()

{

f(); //调用ff具有外部连接类型

}

 

在这个例子中,test. cppmain.cpp各自被编译成不同的.obj文件姑且命名为test.objmain.obj,在main.cpp中,调用了f函数,然而当编译器编译main.cpp时,它所仅仅知道的只是main.cpp中所包含的test.h文件中的一个关于void f();的声明,所以,编译器将这里的f看作外部连接类型,即认为它的函数实现代码在另一个.obj文件中,本例也就是test.obj,也就是说,main.obj中实际没有关于f函数的哪怕一行二进制代码,而这些代码实际存在于test.cpp所编译成的test.obj中。在main.obj中对f的调用只会生成一行call指令,像这样:

 

call f [C++中这个名字当然是经过mangling[处理]过的]

 

在编译时,这个call指令显然是错误的,因为main.obj中并无一行f的实现代码。那怎么办呢?这就是连接器的任务,连接器负责在其它的.obj中(本例为test.obj寻找f的实现代码,找到以后将call f这个指令的调用地址换成实际的f的函数进入点地址。需要注意的是:连接器实际上将工程里的.obj“连接成了一个.exe文件,而它最关键的任务就是上面说的,寻找一个外部连接符号在另一个.obj中的地址,然后替换原来的虚假地址。

 

这个过程如果说的更深入就是:

 

call f这行指令其实并不是这样的,它实际上是所谓的stub,也就是一个jmp 0xABCDEF这个地址可能是任意的,然而关键是这个地址上有一行指令来进行真正的call f动作。也就是说,这个.obj文件里面所有对f的调用都jmp向同一个地址,在后者那儿才真正”call”f。这样做的好处就是连接器修改地址时只要对后者的call XXX地址作改动就行了。但是,连接器是如何找到f的实际地址的呢在本例中这处于test.obj中),因为.obj.exe的格式是一样的,在这样的文件中有一个符号导入表和符号导出表import tableexport table其中将所有符号和它们的地址关联起来。这样连接器只要在test.obj的符号导出表中寻找符号f当然C++f作了mangling的地址就行了,然后作一些偏移量处理后因为是将两个.obj文件合并,当然地址会有一定的偏移,这个连接器清楚写入main.obj中的符号导入表中f所占有的那一项即可。

 

这就是大概的过程。其中关键就是:

 

编译main.cpp时,编译器不知道f的实现,所以当碰到对它的调用时只是给出一个指示,指示连接器应该为它寻找f的实现体。这也就是说main.obj中没有关于f的任何一行二进制代码。

 

编译test.cpp时,编译器找到了f的实现。于是乎f的实现二进制代码出现在test.obj里。

 

连接时,连接器在test.obj中找到f的实现代码二进制的地址通过符号导出表。然后将main.obj中悬而未决的call XXX地址改成f实际的地址。完成。

 

然而,对于模板,你知道,模板函数的代码其实并不能直接编译成二进制代码,其中要有一个实例化的过程。举个例子:

 

//----------main.cpp------//

template

void f(T t)

{}

 

int main()

{

…//do something

f(10); // call f编译器在这里决定给f一个f的实例

…//do other thing

}

 

也就是说,如果你在main.cpp文件中没有调用过ff也就得不到实例化,从而main.obj中也就没有关于f的任意一行二进制代码!如果你这样调用了:

 

f(10); // f得以实例化出来

f(10.0); // f得以实例化出来

 

这样main.obj中也就有了ff两个函数的二进制代码段。以此类推。

 

然而实例化要求编译器知道模板的定义,不是吗?

 

看下面的例子(将模板的声明和实现分离):

 

//-------------test.h----------------//

template

class A

{

public:

void f(); // 这里只是个声明

};

 

//---------------test.cpp-------------//

#include”test.h”

template

void A::f()  // 模板的实现

{

  …//do something

}

 

//---------------main.cpp---------------//

#include”test.h”

int main()

{

A a;

f(); // #1

}

 

编译器在#1处并不知道A::f的定义,因为它不在test.h里面,于是编译器只好寄希望于连接器,希望它能够在其他.obj里面找到A::f的实例,在本例中就是test.obj,然而,后者中真有A::f

抱歉!评论已关闭.