Windows上GAWK的使用(一)

来源:互联网 发布:流量使用情况软件 编辑:程序博客网 时间:2024/05/19 14:56

   现在经常要处理到一些日志数据,对这些数据进行分析处理,但首先要对日志数据进行etl处理,如果简单的数据格式处理,使用gawk是最理想不过了,下面我们就介绍如何使用gawk,对数据进行e(extract)处理。

 

一.到网上下载一个gawk.exe程序(用于Windows上)。

二.gawk的基本语法.

 

1.gawk格式.

gawk [options] "[Begin{}][pattern]{action}[End{}]" InputFileName.

 

1.1. 命令选项[options]

-F fs or --field-separator fs

指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value or --asign var=value

赋值一个用户定义变量。
-f scripfile or --file scriptfile

从脚本文件中读取awk命令。
-mf nnn and -mr nnn

对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
-W compact or --compat, -W traditional or --traditional

在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright

打印简短的版权信息。
-W help or --help, -W usage or --usage

打印全部awk选项和每个选项的简短说明。
-W lint or --lint

打印不能向传统unix平台移植的结构的警告。
-W lint-old or --lint-old

打印关于不能向传统unix平台移植的结构的警告。
-W posix

打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
-W re-interval or --re-inerval

允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
-W source program-text or --source program-text

使用program-text作为源代码,可与-f命令混用。
-W version or --version

打印bug报告信息的版本。
3. 模式和操作[pattern] And [action]

gawk脚本是由模式和操作组成的:

pattern {action} 如gawk .exe “/root/”  test.text,或gawk.exe  “$3 < 100”  test.text。

两者是可选的,如果没有模式,则action应用到全部记录,如果没有action,则输出匹配全部记录。默认情况下,每一个输入行都是一条记录,但用户可通过RS变量指定不同的分隔符进行分隔。
3.1. 模式

模式可以是以下任意一个:

*

/正则表达式/:使用通配符的扩展集。
*

关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如$2>%1选择第二个字段比第一个字段长的行。
*

模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
*

模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
*

BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
*

END:让用户在最后一条输入记录被读取之后发生的动作。

3.2. 操作[action]

操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:
*变量或数组赋值
*输出命令
*内置函数
*控制流命令

   gawk逐行读取InputFileName文件的内容,将符合pattern规则的行,再按照action指定的操作来执行,pattern相当于是条件,action相当于是执行动作。其中用[]中括号括起来的部分不是必须写的部分,接下来列举一个简单的例子.

test.txt文件中的内容如下:

1111;aaaa;AAAA;

2222;bbbb;BBBB;

3333;cccc;dddd;

在命令窗口运行:gawk.exe "{print $0}" test.txt,则输出以下内容:

1111;aaaa;AAAA;

2222;bbbb;BBBB;

3333;cccc;dddd;

"{print $0}"表示完整的输出从test.txt文件中读取的每一行.$0表示当前读取的行,从这里我们应该知道gawk从test.txt读取一行之后开始执行action块的动作。为了验证这点,下面再举一个例子:

gawk.exe "{print """test"""}" test.txt 输出如下:

test

test

test

由于test.txt文件中有三行,所以action块部分执行了三次.

 

如果想以分号作为分隔符可以将test.txt分成四列,只输出前两列:

gawk.exe -F"\73" "{print $1,$2}" test.txt 注意这里"\73"是分号的八进制Ascii码。输出如下:

1111 aaaa

2222 bbbb

3333 cccc

我们发现输出的结果中每一列是用空格分隔的,现在我们自己定义分隔符,写法如下:

gawk.exe -F"\73" "BEGIN{OFS="""\t"""}{print $1,$2}" test.txt 输出结果中每一列是用制表符来分割的,这里面使用到了BEGIN{}块,和内建变量OFS,BEGIN块的作用就是在gawk开始读取test.txt第一行之前要执行的部分,一般在BEGIN块里面初始化变量,OFS是gawk内建变量,表示输出列的分割符是什么,这里使用的是制表符.