用标准模板库STL实现文件比较
作者: winter
简介
本文讨论如何使用标准模板库(STL),类模板和函数模板,以及其它编程技术来解决实际问题。本文涉及到STL包含的集合和向量,函数模板,类模板,常量检验,出错处理和使用STL的文件I/O。
要阅读本文,你要熟悉C++,熟悉类模板和函数模板。本文汇集了大量有关的信息,指引你逐步阅读。
本文用提问,设计和解决方案引导阅读。希望你能喜欢。
问题提出:
有二篇文章都含有许多行文字。我们要建立一个程序来找出二者之间的不同之处并将这些不同内容的行显示出来。程序必须做成可重复使用的组件,就是说,这个组件能够未经修改地被其他程序使用。
设计:
假设这二个文件非常之大(每个文件都有数千行),我们这样设计有关解决方案:
将各个文件读进内存块,
在内存块中进行文件内容比较,
将不同之处放进一个新的第三个内存块。
设计方案还要考虑到各个文件的元素位置可能不同,亦即相同的元素不一定在同一行里。这意味着,必须在内存中遍历搜索不相同的术语并将其存放在第三个内存块中。
考虑到程序的可重用性,我们用类属编程技术来设计,让方案能够适应于存储介质的变化。
当文件很大时(每个文件有数千行),那么要把每个文件都存储进内存可能是不现实的。另外也给执行过程带来困难。
执行细节:
可以用容器来设计,比如用数组或队列,将字符数组存储到容器中。不过这会使得程序的可读性降低并导致组件的可重用性下降。
本文的解决方案用标准模板库(Standard Template Library, STL)的容器来管理内存块。并且用STL的元素来管理将文件读进内存块。这样的设计方案使得程序具有模板容器级水平的可读性。
为达到互用水准的目的,就要使用C++的类模板和函数模板技术来实现。如果你不熟悉这些模板或要复习一下,可参看文末的链接。
方案与指南
你写的程序是给二部分人看的:最终用户和程序开发人员。写给程序员是因为有人可能对你的程序作某些更改。他们必须花时间来理解你的程序。也可能就是你自己在以后的时间里要对程序作出修改 - 改善它的可读性而不降低运行效率,或者增加一系列注释。
举例来说,让我们看一下主函数main():
int main(int argc, char* argv[])
{
// 确认得到正确的参数数量
if(argc!=3)
{
cout << "compareFiles - copyright (c) Essam Ahmed 2000" << endl << endl;
cout << "This program compares the conents of two files and prints" << endl
<< "the differences between the files to the screen" << endl << endl;
cout << "Usage: compareFiles <file_name_1> <file_name_2>" << endl << endl;
return 1;
}
// 声明要使用的容器
typedef vector<string> stringSet;
stringSet s1, s2,s3;
// 将第一篇文章读进集合
populate_set_from_file(s1,argv[1]);
cout << "Contents of Set 1" << endl << endl;
for_each(s1.begin(),s1.end(),printElement);
// 将第二篇文章读进集合
populate_set_from_file(s2,argv[2]);
cout << endl << "Contents of Set 2" << endl << endl;
for_each(s2.begin(),s2.end(),printElement);
/// 比较集合,将不同之处存放到s3
Container_Differences< stringSet,string > (s1,s2,s3);
// 显示结果
cout << endl << "Difference is:" << endl;
for_each(s3.begin(),s3.end(),printElement);
return 0;
}
这里不过多论述如何读文件和比较文件内容,这些都是封装的工作。这里关心的是函数扮演的角色。在本例中,main()函数扮演发报机的角色,而由其他函数执行真正的工作。
可以看到函数的功能,比如populate_set_from_file()和Container_Differences()函数执行大多数核心工作。for_each()函数则是STL的运算规则。
main()函数的精华在于:
typedef vector<string> stringSet;
它定义了一个向量的容器类型,用于存储字符串对象。如果不熟悉什么是向量,可参考文末链接有关于向量的指南。字符串集(stringSet)对象是STL数据类型,其中封装了各个字符串。类型定义typedef使它成为可重复使用的数据类型并使得代码可读性很强。
stringSet s1, s2,s3;
声明了3个容器,指向所含的字符串集合。前2个包含各个输入的文件内容,后面一个则存放不同的字符串。当然变量名应该描述得更正规些。
populate_set_from_file()函数将文件内容读进容器。它是个函数模板,可以使用不同类型的参数。它的构成如下:
template<class T>