现在的位置: 首页 > 综合 > 正文

C++ 的词法分析

2012年03月24日 ⁄ 综合 ⁄ 共 3310字 ⁄ 字号 评论关闭

C++ 的词法分析

词法分析是指原文件被分解为词法符号的过程,通常是整个编译过程的第一步。虽然通常认为了解 C++ 的词法分析过程对于大多数一辈子都不会编写 C++ 编译器的程序员来说意义不大,但这篇文章不仅仅是为了满足某些人的好奇心而写的,因为我觉得任意一个严谨的 C++ 程序员都应该对 C++ 的词法分析有所了解,以避免一些偶然情况下会发生的错误(我们花了若干年去熟悉 C++ 的语法,为什么不花上一天时间随便熟悉一下 C++ 的词法呢?;) )。随文附上两年前写的一个 C++ 词法分析器以及在此基础上完成的一个 C++ 源文件着色器的源代码。

I. 词法分析过程

根据标准的定义,C++ 语言的词法分析按照执行的先后次序分为六步:源字符映射,转义换行替换,预处理符号和空白的划分,预处理执行,目标字符映射以及相邻字符串连接。确定的先后次序是非常重要的,因为同样的源文件,不同的先后次序,可能意义不同。举些简单的例子:如果有这样一行代码:"abcxA" "BCD",如果我们先连接相邻字符串后做目标字符映射,那么最后的结果是"abcxABCD",其中 xAB 被解释为一个字符;如果我们先作目标字符映射,那么 xA 将被解释为一个字符,而 B 则是一个后续字符。或者,如果有这样一段代码 #def
ine PORA "PolyRandom"
这个时候,如果我们先做转义换行替换,那么代码会变成 #define PORA "PolyRandom",是一个合法的预处理语句;可是如果我们先做预处理后做转义换行替换,那么这段代码就会出错。
从以上的两个例子,应该可以看出严格规定顺序的重要性。下面我们就依次解释每一步的具体工作:

1. 源字符映射

1.1 基本源字符集(basic source character set)

基本源字符集包含了所有的大小写英文、所有的数字、空白、垂直和水平 TAB、换行、form feed 和 _{}[]#()<>%:;.?*+-/^&|~!=,"' 一共 96 个字符。

1.2 Trigraph(三元组)

Trigraph 是一些由 ?? 开头的连续的三字符组合,它包括 ??=,??/,??',??(,??),??!,??<,??>和??-,这些字符将被直接替换为对应的字符,分别为#,,^,[,],|,{,}和~。引入 Trigraph 是为了方便的输入这些字符,早期有些键盘不支持它们。

1.3 通用字符名(universal-character-name)

形如 uXXXX 和 UXXXXXXXX 的字符序列,这些定义其实就是对 ISO/IEC 10646 字符集的一个映射,用来表示基本源字符集里面没有的字符。

1.4 映射过程

在这一步,物理文件中的字符,会被映射到 C++ 语言的基本字符集中,譬如说,如果你在物理文件中,使用了特殊的换行标识,那么这一步后,它就会被映射为 C++ 基本源字符集中的换行符。这一步还会进行 Trigraph 的替换,如果一个字符不在基本字符集中,它会被映射为一个通用字符名。

1.5 一些注意事项

首先,由于 Trigraph 发生在第一步,并且是全局性的替换(也就是说,即使是字符串中的 Trigraph 也会被替换掉),所以下面两句中的 Trigraph 都会被替换:

char s[]="??-";
char s[]="??-";

因此,如果你要想表达 ??- 这样的字符串,可以使用 "??-" 或者 "?" "?-" 的形式来表示。

其次,类似于 ??/**/ 这样的字符序列,会被替换成 **/,而不是把后者作为一个注释。

再次,类似于 ??=define ABC 这样的语句,将会是一句合法的预处理语句

此外,你可以在自己的程序里面使用通用字符名,但是对于某些基本源字符集中已经有的字符,以及那些小于 0x20 或是在 0x7f 到 0x9f 之间的字符,你不能用通用字符名表示,否则将被认为是一个错误。

2. 转义换行替换

这一步很简单,就是检查所有的换行,如果在其前面紧跟了一个 ,那么这个换行和这个字符都将被去掉。这一步需要注意的是:第一,如果两行被重新连接后,出现了一个通用字符名,那么结果将是未定义的;第二,如果一个非空源程序不是以换行结束的,或者是以转移换行结束的,那么这个程序的结果是未定义的(大多数编译器会给出一个警告。我在不少 BBS 上看到这方面的提问。)第三,如果一个单行注释 // 是以转移换行结束的,那么它的下一行会被认为是注释的延续。

3. 预处理符号和空白的划分

这一部分,程序中的注释会被替换为一个空白字符,多个连续的空白字符可能会被替换为单一的空白字符。C++ 标准规定,任意一个文件都不能在预处理指令或者是注释的中间结束。所以说,如果你有两个源文件:

polyrandom.h


/*

polyrandom.cpp


#include "polyrandom.h"

*/

这样的代码是不合法的。事实上,这通常也和程序员的意愿背道而驰的,因为注释处理先于预处理被执行。

此外,注释被替换为一个空白,也就是说

unsigned int/**/i;

是定义了一个无符号整型变量,名为 i,而不是一个名为 inti 的无符号整型变量。

4. 预处理符号和空白的划分

这一步就是宏的展开和文件的包含。每一个被包含的文件,都需要经过第一到第四步的处理。同样,这一步的处理如果产生了通用字符名,那么结果将是未定义的。

5. 目标字符映射

6. 相邻字符串连接。

所有相邻的字符串被连接在一起,包括宽字符串。

II. C++ 中的词法元素

C++ 中的词法元素,就包含在下面这句语句中:

int ratio = 0.5; // the convert ratio

它们是:关键字,空白,标识符,运算符,常量,分隔符和注释。

标准 C++ 中的关键字包括:

asm auto bool break case catch char class const const_cast continue
default delete do double dynamic_cast else enum explicit export extern
false float for friend goto if inline int long mutable namespace new
operator private protected public register reinterpret_cast return short
signed sizeof static static_cast struct switch template this throw true try
typedef typeid typename union unsigned using virtual void volatile wchar_t
while

我们把 and、and_eq、bitand、bitor、compl、not、not_eq、or、or_eq、xor 和 xor_eq 作为保留字看待。

说到 C++ 的运算符号,必须提一下所谓的“可选符号”(Alternative Token)。每一个可选符号都和一个普通的运算符语法含义相同,但是它们在前面几步中,并不会被替换成它们所对应的运算符。它们是

<% {
%> }
<: [
:> ]
%: #
%:%: ##
and &&
bitor |
or ||
xor ^
compl ~
bitand &
and_eq &=
or_eq |=
xor_eq ^=
not !
not_eq !=

还有一点需要提到的是,在 C++ 中,你不仅可以用 'c' 的形式来表示一个字符常量,也可以用 'ab'、'abcd' 这样的形式来表示一个相应长度的整数。

III. CppDyer 源代码

这个源代码中附带的词法分析器支持我上面所说的所有词法要素(至少我是这么认为的 :) ),当然,没有包含预处理的执行。写的时候比较早,所以没用正则表达式处理库,而是自己写了一个很粗糙的正则表达式分析器。如果你要拿去修改或者发布的话,请通知我一声,并且请你在你的发布(无论是源代码还是可执行程序)中的明显位置标明原来的出处。
此外,boost 的 regexp 库也附带了一个类似的小程序作为例子,有兴趣地可以去看看。http://www.polyrandom.com/uploadfiles/CppDyer.rar

抱歉!评论已关闭.