现在的位置: 首页 > 综合 > 正文

linux下的awk简介

2014年02月04日 ⁄ 综合 ⁄ 共 2178字 ⁄ 字号 评论关闭

1、简介

   AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上
AWK 的确拥有自己的语言:AWK 程序设计语言, 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

   最简单地说, AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时,其目的是用于文本处理,并且这种语言的基础是,只要在输入数据中有模式匹配,就执行一系列指令。该实用工具扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行。


2、调用方式

   awk提供了适应多种需要的不同解决方案,它们是:
   一、 awk命令行,你可以象使用普通UNIX命令一样使用awk,在命令行中你也可以使用awk程序设计语言,虽然awk支持多行的录入,但是录入长长的命令行并保证其正确无误却是一件令人头疼的事,因此,这种方法一般只用于解决简单的问题。当然,你也可以在shell script程序中引用awk命令行甚至awk程序脚本。
   二、使用-f选项调用awk程序。awk允许将一段awk程序写入一个文本文件,然后在awk命令行中用-f选项调用并执行这段程序。具体的方法我们将在后面的awk语法中讲到。
   三、利用命令解释器调用awk程序:利用UNIX支持的命令解释器功能,我们可以将一段awk程序写入文本文件,然后在它的第一行加上:
#!/bin/awk -f
   并赋予这个文本文件以执行的权限。这样做之后,你就可以在命令行中用类似于下面这样的方式调用并执行这段awk程序了。
   aw   k脚本文本名 待处理文件


3、语法

   命令的语法始终是:
   awk '{pattern + action}' 或者 awk 'pattern {action}'
   其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所执行的一系列命令。花括号 ({}) 不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。

   命令选项
   -F fs or –field-separator fs 指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
   -v var=value or –asign var=value 赋值一个用户定义变量。
   -f scripfile or –file scriptfile 从脚本文件中读取awk命令。
   -mf nnn and -mr nnn  对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
   -W compact or –compat, -W traditional or –traditional  在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
   -W copyleft or –copyleft, -W copyright or –copyright  打印简短的版权信息。
   -W help or –help, -W usage or –usage  打印全部awk选项和每个选项的简短说明。
   -W lint or –lint  打印不能向传统unix平台移植的结构的警告。
   -W lint-old or –lint-old  打印关于不能向传统unix平台移植的结构的警告。
   -W posix  打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
   -W re-interval or –re-inerval  允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。

   -W source program-text or –source program-text  使用program-text作为源代码,可与-f命令混用。
   -W version or –version  打印bug报告信息的版本。


4、示例

   $ awk ‘/^(no|so)/’ test—–打印所有以模式no或so开头的行。
   $ awk ‘/^[ns]/{print $1}’ test—–如果记录以n或s开头,就打印这个记录。


参考文献:百度百科和http://www.cnblogs.com/wangkangluo1/archive/2012/04/18/2455097.html

抱歉!评论已关闭.