C文件如何成为可执行文件（编译、链接、执行）——摘自《程序员的自我修养》

现在的位置: 首页 > 综合 > 正文

C文件如何成为可执行文件（编译、链接、执行）——摘自《程序员的自我修养》

2014年02月04日 ⁄ 综合 ⁄ 共 4261字 ⁄ 字号小中大 ⁄ 评论关闭

本文算是我阅读《程序员的自我修养》（俞甲子等著）相关章节的笔记，文中直接引用了原书中的叙述，强烈建议大家去看原书，本文只做概要介绍而用。

——注：文中有很多引用图的地方，请大家自己去找原书看，支持正版！

我遇到一个问题，Linux C编程中的问题：

..
char *p;
unsigned int i = 0xcccccccc;
unsigned int j;
 
p = (char *)  &i;
printf("%.2x %.2x %.2x %.2x\n", *p, p[1], p[2], p[3]);
 
memcpy(&j, p, sizeof(unsigned int));
printf("%x\n", j);
...
 
Output:
 
ffffffcc ffffffcc ffffffcc ffffffcc
0xcccccccc
 
 
My questions are:
 
1. Why it prints "ffffffcc ffffffcc ffffffcc ffffffcc"? (if p is
unsigned char* then it will print correctly "cc cc cc cc")
2. Why pointer to char p copied to j correctly, why not every member
in p overflow? since it is a signed char.

这是别人在邮件列表中提出的问题，在试图回答这个问题的过程中，突然发现，自己对连接器的工作并不熟悉，因此拿来好书《程序员的自我修养》来看，并做如下汇报，强烈推荐《程序员的自我修养》！！！

写好的C语言文件，最终能够执行，大致要经过预处理、编译、汇编、链接、装载五个过程。

预编译完成的工作：

（1）将所有的"#define"删除，并展开所有的宏定义

（2）处理所有条件预编译指令

（3）处理#include预编译指令，将被包含的文件插入到预编译指令的位置，这个过程是递归进行的。

（4）删除所有的注释

（5）添加行号和文件名标识，以便调试

（6）保留所有的#pragma编译器命令，因为编译器需要使用它们。

编译完成的工作：

（1）词法分析

扫描源代码序列，并将其分割为一系列的记号（Token）。

（2）语法分析

用语法分析器生成语法树，确定运算符号的优先级和含义、报告语法错误。

（3）语义分析

静态语义分析包括生命和类型的匹配，类型的转换；动态语义分析一般是在运行期出现的与语义相关性的问题，如除0错。

（4）源代码生成

源代码级优化器在源代码级别进行优化：如将如（6+2）之类的表达式，直接优化为（8）等等。将语法书转换为中间代码，如三地址码、P-代码等。

（5）代码生成

将源代码转换为目标代码，依赖于目标机器。

（6）目标代码优化

汇编完成的工作：

将汇编代码变成机器可以执行的指令

链接完成的工作：

链接完成的工作主要是将各个模块之间相互引用的部分处理好，使得各个模块之间正确衔接。链接过程包括：地址和空间分配、符号决议和重定位。

首先讲静态链接，基本的静态链接如下：

我们可能在main函数中调用到定义在另一个文件中的函数foo()，但是由于每个模块式单独编译的，因此main并不知道foo的地址，所以它暂时把这些调用foo的指令的目标地址搁置，等到最后链接的时候让连接器去修正这些地址（重定位），这就是静态链接最基本的过程和作用；对于定义在其他文件中的变量，也存在相同的问题。具体过程如下：

（1）空间和地址分配

1）空间与地址分配：扫描所有输入目标文件，获得各个段的属性、长度和位置，并且将目标文件中的符号表中所有的符号定义和符号引用收集起来，放到一个全局符号表中。

2）符号解析和重定位：使用第一步收集到的信息，读取输入文件中段的数据、重定位信息，并进行符号解析与重定位、调整代码中的地址等。

动态链接的过程更为复杂，但是完成的工作类似。

动态链接的初衷是为了解决空间浪费和更新困难的问题，把链接过程推迟到运行时进行

首先介绍一个重要的概念——地址无关代码。为了解决固定装载地址冲突的问题，我们希望对所有绝对地址的引用不作重定位，而把这一步推迟到装载的时候再完成，一旦模块装载地址确定，即目标地址确定，那么系统对程序中所有的绝对地址引用进行重定位。同时我们希望，模块中共享的指令部分在装载时不需要因为装载地址的改变而改变，所以把指令中那些需要被修改的部分分离出来，跟数据放在一起，这样指令部分就可以保持不变，而数据部分可以在每个进程中拥有一个副本，这种方案目前被称为地址无关代码（PIC，Position-independent
Code）。

我们需要解决如下四种引用中的重定位问题：

1）模块内部调用或者跳转：这个可以用相对地址调用或者基于寄存器的相对调用，所以不需要重定位

2）模块内部数据的访问：用相对寻址的方法，不过链接器实现得十分巧妙：

call494 <__i686.get_pc_thunk.cx>

add$0x188c, %ecx

mov$0x1, 0x28(%ecx) //a=1

调用一个叫做__i686.get_pc_thunk.cx的函数，把call的下一条指令的地址放到ecx寄存器中，接着执行一条mov指令和一个add指令

3）模块间数据的访问：在数据段里建立一个指向全局变量的指针数组，也成全局便宜表（GOT），当要引用全局变量时，可以通过GOT相对应的项间接引用：

GOT是做到指令无关的重要的一环：在编译时可以确定GOT相对于当前指令的偏移，根据变量地址在GOT中的偏移就可以得到变量的地址，当然GOT中哪个每个地址对应于哪个变量是由编译器决定的。

4）模块间的调用、跳转：采用上面类似的方法，不同的是GOT中相应的项存储的是目标函数的地址，当模块需要调用目标函数时，可以通过GOT中的项进行间接跳转。

地址无关代码小结：

现在，来看动态链接中的另一个重要问题——延迟绑定（PLT）。当函数第一次被用到时才进行绑定，否则不绑定。PLT为了实现延迟绑定，增加了一层间接跳转。调用函数并不是通过GOT跳转的，而是通过一个叫PLT项的结构进行跳转的，每个外部函数在PLT中都有对应的项，如函数bar，其在PLT对应的项的地址记为bar@plt，实现方式如下：

bar@plt:

jmp* (bar@GOT)

pushn

pushmoduleID

jump_dl_runtime_resolve

链接器的这个实现至为巧妙：

如果在连接器初始化阶段，已经正确的初始化了bar@GOT，那么这个跳转指令的结果正是我们所期望的，但是，为了实现PLT，一般在连接器初始化时，将"pushn"的地址放入到bar@GOT中，这样就直接跳转到第二条指令，相当于没有进行任何操作。第二条指令“pushn”，n是bar这个符号引用在重定位表“.rel.plt”中的下标。接着将模块的ID压栈，跳转到_dl_runtime_resolve完成符号解析和重定位工作，然后将bar的地址填入到bar@GOT中。下次再调用到bar时，则bar@GOT中存储的是一个正确的地址，这样就完成了整个过程。

在链接完成之后，就生成了你要的可执行文件了，如ELF文件，至于这个文件的详细的信息，可以参考相关的文档。

现在，你要运行你的可执行文件，这是如何做到的呢？

我们从操作系统的角度来看可执行文件的装载过程。操作系统主要做如下三件事情：

（1）创建一个独立的虚拟地址空间，但由于采用了COW机制，这里只是复制了父进程的页目录和页表，甚至不设置映射关系（参考操作系统相关书籍）。

（2）读取可执行文件头，并且建立虚拟空间与可执行文件的映射关系。

（3）将CPU的指令寄存器设置成可执行文件的入口地址，启动运行。

我们来看一下执行过程中，进程虚拟空间的分布。

首先我们来区分Section和Segment，都可以翻译为“段”，那么有什么不同呢？从链接的角度来讲，elf文件是按照Section存储的，从装载的角度讲，elf文件是按照Segment存储的。”Segment”实际上是从装载的角度重新划分了ELF的各个段，将其中属性相似的Section合并为一个Segment，而系统是按照Segment来映射可执行文件的。所以，在谈到ELF装载时，“段”专门指“Segment”，而其他情况下指“Section”。

【上篇】Linux 内核剖析
【下篇】牙齿又开始痛了

作者: chard

该日志由 chard 于10年前发表在综合分类下，最后更新于 2014年02月04日.
转载请注明: C文件如何成为可执行文件（编译、链接、执行）——摘自《程序员的自我修养》 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

C文件如何成为可执行文件（编译、链接、执行）——摘自《程序员的自我修养》

作者: chard

书签

最新文章New

本站推荐

返回首页