现在的位置: 首页 > 综合 > 正文

系统程序员成长计划-文本处理(INI解析器)

2013年05月03日 ⁄ 综合 ⁄ 共 2772字 ⁄ 字号 评论关闭
Sunday, June 07th, 2009 | Author: admin
| » Edit «

 

转载时请注明出处和作者联系方式
文章出处:http://www.limodev.cn/blog

作者联系方式:李先静 <xianjimli at hotmail dot com>

系统程序员成长计划-文本处理(一)

状态机(3)

o INI解析器

上面我们看了只有中间两个状态的状态机,现在我们来看一个稍微复杂一点的状态机。

INI文件是Windows下常用的一种配置文件。它由多个分组组成,每个组有多个配置项,每个配置项又由名称和值组成。文件里还可以包含注释,注释通常以‘;’(或‘#’)开始,直到当前行结束。如XP下的win.ini:

; for 16-bit app support
[fonts]
[extensions]
[mci extensions]
[files]
[MCI Extensions.BAK]
aif=MPEGVideo
aifc=MPEGVideo
aiff=MPEGVideo
asf=MPEGVideo
asx=MPEGVideo
au=MPEGVideo
m1v=MPEGVideo
m3u=MPEGVideo
mp2=MPEGVideo
mp2v=MPEGVideo
mp3=MPEGVideo
[annie]
CaptureFile=
VideoDevice=0
AudioDevice=0
FrameRate=333333
UseFrameRate=1
CaptureAudio=1
WantPreview=1
MasterStream=-1
[SciCalc]
layout=0

第一行是注释,后面有fonts、extensions和mci extensions三个空的分组,MCI Extensions.BAK、annie和SciCalc三个分组包含有一个或多个配置项。

对于这样一个文件,我们应该怎样去解析它呢?按照前面的方法,先把数据读入到一个缓冲区中,让一个指针指向缓冲区的头部,然后移动指针,直到指向缓冲区的尾部。在这个过程中,指针可能指向的注释、分组的组名、配置项的名称、配置项的值或者一些如换行符之类的格式信息。

由此,我们可以这样来定义INI的状态机:

状态集合:
1. 分组的组名状态
2. 注释状态
3. 配置项的名称状态
4. 配置项的值状态
5. 空白状态

状态转换函数:
1. 初始状态为“空白”状态。
2. 在“空白”状态下,读入字符‘[’,进入“分组组名”状态。
3. 在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。
4. 在“空白”状态下,读入字符‘;’,进入“注释”状态。
5. 在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。
6. 在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。
7. 在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。
8. 在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。

INI状态机可以用下图来表示:

现在我们来看看程序实现:

static void ini_parse (char* buffer, char comment_char, char delim_char)
{
char* p = buffer;
char* group_start = NULL;
char* key_start = NULL;
char* value_start = NULL;
/*定义INI解析器的状态,初始状态为“空白”状态。*/
enum _State
{
STAT_NONE = 0,
STAT_GROUP,
STAT_KEY,
STAT_VALUE,
STAT_COMMENT
}state = STAT_NONE;

for(p = buffer; *p != '/0'; p++)
{
switch(state)
{
case STAT_NONE:
{
if(*p == '[')
{
/*在“空白”状态下,读入字符‘[’,进入“分组组名”状态。*/
state = STAT_GROUP;
group_start = p + 1;
}
else if(*p == comment_char)
{
/*在“空白”状态下,读入字符‘;’,进入“注释”状态。*/
state = STAT_COMMENT;
}
else if(!isspace(*p))
{
/*在“空白”状态下,读入非空白字符,进入“配置项的名称”状态。*/
state = STAT_KEY;
key_start = p;
}
break;
}
case STAT_GROUP:
{
/*在“分组组名”状态下,读入字符‘]’,分组组名解析成功,回到“空白”状态。*/
if(*p == ']')
{
*p = '/0';
state = STAT_NONE;
strtrim(group_start);
printf("[%s]/n", group_start);
}
break;
}
case STAT_COMMENT:
{
/*在“注释”状态下,读入换行字符,结束“注释”状态,回到“空白”状态。*/
if(*p == '/n')
{
state = STAT_NONE;
break;
}
break;
}
case STAT_KEY:
{
/*在“配置项的名称”状态下,读入字符‘=’, 配置项的名称解析成功,进入“配置项的值”状态。*/
if(*p == delim_char || (delim_char == ' ' && *p == '/t'))
{
*p = '/0';
state = STAT_VALUE;
value_start = p + 1;
}
break;
}
case STAT_VALUE:
{
/*在“配置项的值”状态下,读入换行字符,配置项的值解析成功,回到“空白”状态。*/
if(*p == '/n' || *p == '/r')
{
*p = '/0';
state = STAT_NONE;
strtrim(key_start);
strtrim(value_start);
printf("%s%c%s/n", key_start, delim_char, value_start);
}
break;
}
default:break;
}
}

if(state == STAT_VALUE)
{
strtrim(key_start);
strtrim(value_start);
printf("%s%c%s/n", key_start, delim_char, value_start);
}

return;
}

ini文件有几个变种:
1. 支持默认分组,如果只有一个分组,省略分组的组名,linux下不少配置文件采用这种方式。
2. 注释符号,有的用‘;’,有的用‘#’,前者多用于Windows下,后面多用于Linux下。
3. 名称和值之间的分隔,有的用空格,有的用‘=’,有的‘:’。

不管哪种格式,它们的解析方法是一样的,在上面的程序中,我们使用了comment_char和 delim_char两个参数,分别表示注释符号和分隔符号。

抱歉!评论已关闭.