现在的位置: 首页 > 综合 > 正文

《shell脚本学习指南》—-文本处理

2014年11月22日 ⁄ 综合 ⁄ 共 1335字 ⁄ 字号 评论关闭

****************    排序    ******************

(1)字节排序

首先应该了解一下各种字符的字符值

$ man iso_8859_1

#以严格的字节顺序排序文件

$ LC_ALL=C sort /etc/passwd

#以Candian-French的文本顺序排序

$ LC_ALL=fr_CA.iso88591 sort /etc/passwd

(2)字段排序,需要找出一个或多个键值
#-t和-k的应用

$ sort -t: -k2.4,5.6 regular.txt

#-t表示分隔符,若不指定-t,则默认空白为分隔符,此处应是:为分隔符
#-k后跟数值,此处为:分隔符从第二个字段的第四个字符开始生效,到第五个字段的第六个字符截止,如果其后仅跟一个字段编号而无逗号,截止出应为记录的结尾

#反向排序

$ sort -t: -k3nr,3 /etc/passwd

#-n表示以数值比较,-r表示反向排序
#此处意为在第三个字段内以数值反向排序,即:以UID排序

#以GID和UID同时排序

$ sort -t: -k4n -k3n /etc/passwd

#先会比较第四个字段的数值,当它们相等时,再比较第三个字段的数值,然后就可以以顺序列出了

#-u可以将几个键值的相同的文本行只显示一个出来

$ sort -t: -k4n -u /etc/passwd

#虽然-u可以删除多余的重复行,但它是以键值为基础的

****************    删除重复    ******************

uniq的管道应用

预存文件,test_for_uniq

hello
allow
linux
hello
test
important
test

#注意:uniq常作用于sort之后的文件

#显示排序后的唯一的文件

$ sort test_for_uniq | uniq

#将行的重复次数显示出来

$ sort test_for_uniq | uniq -c

#仅仅显示重复的行

$ sort test_for_uniq | uniq -d

#仅仅显示未重复的行

$ sort test_for_uniq | uniq -u

****************    段落格式化    ******************

预存文件,fmt_test

I'm happy to help you.
I would like to be happy.
Can you help me?
I want to see a movie.

$ fmt -s -w 10 fmt_test

#fmt为文本格式化工具
#-s表示仅切割较长的行,但不会将较短的行结合成较长的行
#-w n设置输出行的宽度为n个字符
#这里表示,文件将被格式化为10个字符一行的文件

****************    各种数值统计    ******************

wc为字数统计工具,默认为一行报告,分别为:行数、字数和字节数

-c,字节数
-l,行数
-w,字数

****************    开头和结尾的提取    ******************

(1)显示前几条记录的几种方法
$ head -n n      [files]
$ head -n        [files]
$ awk 'FNR <= n' [files]
$ sed -e nq      [files]
$ sed nq         [files]

(2)显示后几行
$ tail -n [files]

抱歉!评论已关闭.