经常会用到比较两个文件中相同行的数量,也就是把文件当作集合,求集合的交集差集等。
假设有两个文件a.file和b.file,分别代表集合A和集合B。
a.file的内容如下:
a b c d e
b.file的内容如下:
c d e f g
可选用的命令有两个,comm和grep。分别介绍下:
comm命令
comm命令可以求出两个文件的比较结果。默认输出三列,分别表示A-B,B-A 和 A交B。
对a.file和b.file的直接执行结果如下:
$ comm a.file b.file a b c d e f g
注意:
1)comm命令要求输入文件的内容必须是排序且唯一的
2)comm -12 表示取消第一列和第二列的输出,即只输出第三列。
grep命令
grep命令是常用来搜索文本内容的,根据输入的pattern,输出命中的内容。可以利用它的文件输入pattern特性,来求两个文件的交集。
$ grep -F -f a.file b.file c d e
那差集可以利用-v这个参数,例如:
$ grep -F -v -f a.file b.file f g $ grep -F -v -f b.file a.file a b
其中第一个命令求B-A,第二个命令求A-B
注意:
1)grep求交集不要求输入文件是排序的,但最好是唯一的
2)差集时注意输入文件的顺序