awk 用法(转载)

来源:互联网 发布:超市软件免费版 编辑:程序博客网 时间:2024/05/16 17:01
首先分享一个很好的学习awk语言的网站:http://www.tsnc.edu.cn/default/tsnc_wgrj/doc/awk.htm
首先分享一个很好的学习awk语言的网站:http://www.tsnc.edu.cn/default/tsnc_wgrj/doc/awk.htm
首先分享一个很好的学习awk语言的网站:http://www.tsnc.edu.cn/default/tsnc_wgrj/doc/awk.htm

本文所有用例的测试环境采用unix-center的ubuntu服务器http://www.unix-center.net/具体版本如下:ly5066113@ubuntu:~$ uname -aLinux ubuntu 2.6.24-22-generic #1 SMP Mon Nov 24 19:35:06 UTC 2008 x86_64 GNU/Linuxly5066113@ubuntu:~$ bash --versionGNU bash, version 3.2.39(1)-release (x86_64-pc-linux-gnu)Copyright (C) 2007 Free Software Foundation, Inc.ly5066113@ubuntu:~$ awk --versionGNU Awk 3.1.6Copyright (C) 1989, 1991-2007 Free Software Foundation.复制代码一、RS 与 ORS 差在哪我们经常会说,awk是基于行列操作文本的,但如何定义“行”呢?这就是RS的作用。默认情况下,RS的值是\n。下面通过实例来理解下RS。ly5066113@ubuntu:~$ echo '1a2a3a4a5' | awk '{print $1}'1a2a3a4a5ly5066113@ubuntu:~$ echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'12345复制代码我们可以看到,在更改了RS的值后,awk定义的行已经不是我们实际意义中的行了。上面RS固定的字符串,RS也可以定义为正则表达式。ly5066113@ubuntu:~$ echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'1 [a-z]+ ab2 [a-z]+ bc3 [a-z]+ cd4 [a-z]+ de5 [a-z]+复制代码当我们将RS设置为正则表达式的时候,RT这个变量就有作用了,RS的值始终为我们设定的正则,RT的值则是这个正则实际匹配到的内容。下面我们看看将RS设置为空会是什么情况ly5066113@ubuntu:~$ cat urfile1234ly5066113@ubuntu:~$ awk 'BEGIN{RS=""}{print $0}' urfile1234复制代码如果RS被设置为空,那么awk会将连续的空行作为行分隔符,与RS设置成"\n\n+"有什么区别???1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉2、不设置RT变量(测试未发现规律,暂时认为RT变量不可用)3、影响FS变量这个怎么理解?对于1、2两点,当作习题留给大家自己测试,3我们下节来讲。总结下RS的3种情况:1) 非空字符串   以固定字符串作为行分隔符,同时设置变量RT为固定字符串2) 正则表达式   以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串3) 空字符   以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。ORS的值只能设定为字符串,默认情况下,ORS的值是\nly5066113@ubuntu:~$ seq 5 | awk '{print $0}'12345ly5066113@ubuntu:~$ seq 5 | awk 'BEGIN{ORS="a"}{print $0}'1a2a3a4a5a复制代码我们平常用的 print $0 等价于 printf $0 ORS二、FS 与 OFS 差在哪RS是awk用来定义“行”的,那么FS就是awk用来定义“列”的。设置变量 FS 与使用 -F 参数是一样的。ly5066113@ubuntu:~$ echo '1,2' | awk -F , '{print $1}'1ly5066113@ubuntu:~$ echo '1,2' | awk 'BEGIN{FS=","}{print $1}'1复制代码与 RS 类似,FS 同样可以设置为正则表达式ly5066113@ubuntu:~$ echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'1 2 5复制代码FS 有1个特例,就是将FS设置为一个空格,FS=" " ,这也是FS的默认值In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.复制代码此时,awk会将连续的 空格 或 制表符(\t) 或 换行符(\n) 作为列的分隔符那么,FS=" " 与 FS="[ \t\n]+" 有区别么???答案是肯定的ly5066113@ubuntu:~$ echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'1ly5066113@ubuntu:~$ echo ' 1 2' | awk 'BEGIN{FS="[ \t\n]+"}{print $1}'复制代码当FS=" "时,awk会自动去掉行首和行尾的 空格 或 制表符(\t) 或 换行符(\n),但FS="[ \t\n]+"是不会的同样,FS也可以设置为空ly5066113@ubuntu:~$ echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'1 2复制代码当FS被设置为空字符串的时候,awk会将一行记录的每个字符做为单独的一列类似的,当我们想以固定的长度来分隔列的时候,可以使用 FIELDWIDTHS 来代替 FS例如,一行记录的前3个字符作为第一列,接下来的2个字符作为第二列,接下来的4个字符作为第三列ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'123 45 6789ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 3"}{print $1,$2,$3}'123 45 678ly5066113@ubuntu:~$ echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 5"}{print $1,$2,$3}'123 45 6789复制代码如果定义的长度小于实际的长度,awk会截断,如果大于实际长度,则以实际长度为准。总结下FS的4种情况:1) 非空字符串   以固定字符串作为列分隔符2) 正则表达式   以正则表达式作为列分隔符3) 单个空格   以连续的 空格 或 制表符(\t) 或 换行符(\n)作为列分隔符4) 空字符   以每个字符做为单独的一列接下来我们来看看上节提到的问题:当 RS="" 时,会将\n强制加入到FS变量中ly5066113@ubuntu:~$ cat urfile1a2a3ly5066113@ubuntu:~$ awk -v RS="" '{print "#" $0 "#"}' urfile#1a##2a##3#ly5066113@ubuntu:~$ awk -F "b" -v RS="" '{print $1}' urfile123ly5066113@ubuntu:~$ awk -F "c" -v RS="" '{print $1}' urfile123ly5066113@ubuntu:~$ awk -F "c" -v RS="\n\n+" '{print "#" $1 "#"}' urfile#1a##2a##3#复制代码如果FS为单个字符,\n始终存在在 FS 中,而 RS="\n\n+" 则不会。了解的 FS ,我们来看看 OFS ,FS是awk读入记录时的列分隔符,OFS则是awk输出时的列分隔符。我们平时使用的 print $1,$2 等价于 print $1 OFS $2ly5066113@ubuntu:~$ echo '1 2' | awk -v OFS="|" '{print $1,$2}'1|2ly5066113@ubuntu:~$ echo '1 2' | awk -v OFS="|" '{print $1 OFS $2}'1|2复制代码如果一行记录有很多列,同时想改变输出的分隔符,print $1,$2,$3 ... 岂不是很麻烦?当然有简单的方法:ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'1 2 3 4 5ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'1|2|3|4|5ly5066113@ubuntu:~$ echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'1|2|3|4|5复制代码为了使OFS的设置生效,需要改变 $0 ,这里我们是对 awk 撒了个小谎$1=$1 或者 NF+=0, $0 本身的内容实际上没有任何改变,只是为了使 OFS 的设置生效在理解了 RS 和 FS 之后,我们来回顾开始的那句话:“awk是基于行列操作文本的”这个说法实际上不是很准确,因为在改变了 RS 后,awk 中的“行”已经不是一般的“行”了同样,改变了 FS 后,awk 中的“列”也已经不是一般的“列”了因此,准确的应该这样讲:“awk是基于 记录(record) 和 域(field) 操作文本的”三、0"0" 差在哪我们先来看一个例子:ly5066113@ubuntu:~$ awk 'BEGIN{if(0) print "true";else print "false"}'falsely5066113@ubuntu:~$ awk 'BEGIN{if("0") print "true";else print "false"}'true复制代码为什么同样是 0 ,结果却不一样?其实要解释这个问题,只需要弄清楚awk中的“真”与“假”。以下3种情况是“假”,其他情况都为“真”1) 数字 02) 空字符串3) 未定义的值ly5066113@ubuntu:~$ awk 'BEGIN{a=0;if(a) print "true";else print "false"}'falsely5066113@ubuntu:~$ awk 'BEGIN{a="";if(a) print "true";else print "false"}'falsely5066113@ubuntu:~$ awk 'BEGIN{if(a) print "true";else print "false"}'false复制代码以上是普通的字符测试,对于是表达式的情况,先计算表达式,然后将结果按上面的情况测试ly5066113@ubuntu:~$ awk 'BEGIN{if(a=1) print "true";else print "false"}'truely5066113@ubuntu:~$ awk 'BEGIN{if(a=0) print "true";else print "false"}'falsely5066113@ubuntu:~$ awk 'BEGIN{if(a="0") print "true";else print "false"}'truely5066113@ubuntu:~$ awk 'BEGIN{if(a="") print "true";else print "false"}'falsely5066113@ubuntu:~$ awk 'BEGIN{if(a=a) print "true";else print "false"}'false复制代码来看一个被大家称为月经的问题,awk如何去重?awk '! a[$0] ++'复制代码在解释之前,我们先要了解awk的一个特性:awk 会根据语境来给未定义的变量赋初始值ly5066113@ubuntu:~$ awk 'BEGIN{print a "" 1}'1ly5066113@ubuntu:~$ awk 'BEGIN{print a + 1}'1复制代码对于未定义的变量,如果要进行字符串操作,会被赋成空字符串 ""如果要进行数学运算,会被赋成数字 0现在我们看看上面的代码 ! a[$0] ++ 等价于 if(! a[$0] ++) print $0对于首次出现的记录,a[$0]的值是未定义的,由于后面的 ++ 是数学计算,所以a[$0]会被赋值成数字0也是由于 ++ 操作符,会先取值,再计算,所以对于第一行记录实际上是if(! 0) print $0! 是取反,0 是假,! 0 就是真,那么就会执行后面的 print $0对于后面出现的重复记录,a[$0] 经过 ++ 的计算已经变为 123 。。。而 ! 1  ! 2  ! 3 ... 都为假,不会打印。下面我们用黑哥的一段代码来深刻体会一下,用awk打印奇数行:ly5066113@ubuntu:~$ seq 10 | awk 'i=!i'13579复制代码你想明白了么?四、NR 与 FNR 差在哪NR与FNR在awk处理单个文件时是没有区别的,处理多个文件时才有区别,我们先看个例子:ly5066113@ubuntu:~$ awk '{print FILENAME,"NR="NR,"FNR="FNR,$0}' a.txt b.txt c.txta.txt NR=1 FNR=1 aa.txt NR=2 FNR=2 ba.txt NR=3 FNR=3 cb.txt NR=4 FNR=1 db.txt NR=5 FNR=2 eb.txt NR=6 FNR=3 fc.txt NR=7 FNR=1 gc.txt NR=8 FNR=2 hc.txt NR=9 FNR=3 i复制代码我们可以看到,NR是awk处理的总记录数,无论多少个文件,是一直累加的而FNR是awk处理当前文件的记录数,当文件变化的时候是重新记数的上面还有出现了一个变量FILENAME,这个变量的值就是awk当前处理的文件的文件名这里我们还有几个变量需要了解:ARGV、ARGC、ARGINDARGV 是一个数组,它记录着命令行的所有参数的值ARGC 是命令行参数的个数,(不包括-F、-v之类的awk参数)ARGIND 是ARGV数组的索引值,从0到ARGC-1当我们想去了解这些变量时,最简单并且最有效的方法就是printly5066113@ubuntu:~$ awk 'BEGIN{for(i=0;i<ARGC;i++) print "ARGV["i"]="ARGV[i]}{print ARGV[ARGIND],ARGIND,ARGC,$0}' [abc].txtARGV[0]=awkARGV[1]=a.txtARGV[2]=b.txtARGV[3]=c.txta.txt 1 4 aa.txt 1 4 ba.txt 1 4 cb.txt 2 4 db.txt 2 4 eb.txt 2 4 fc.txt 3 4 gc.txt 3 4 hc.txt 3 4 i复制代码那么,ARGV[ARGIND]与FILENAME是否等价呢?一般情况下,在awk处理文件时,两者是一样的我们看看其他一些特殊的情况;ly5066113@ubuntu:~$ awk 'BEGIN{print FILENAME,ARGV[ARGIND]}'awkly5066113@ubuntu:~$ awk 'BEGIN{getline;print FILENAME,ARGV[ARGIND],$0}'123- awk 123ly5066113@ubuntu:~$ awk 'BEGIN{getline;print FILENAME,ARGV[ARGIND],$0}' a.txta.txt a.txt aly5066113@ubuntu:~$ awk 'BEGIN{getline<"a.txt";print FILENAME,ARGV[ARGIND],$0}'awk a复制代码我们可以看到,在任何情况下,ARGV[ARGIND]始终是有值的,而FILENAME则不一定FILENAME    The name of the current input file.  If no files are specified on the command line, the value of FILENAME is "-".  However, FILENAME is undefined  inside                   the BEGIN block (unless set by getline).复制代码下面我们用一个简单的例子来理解下上面的内容;实现 head 命令的功能我想这个问题大家一定都会:awk 'NR<=10'复制代码但这里我们希望是用awk处理多个文件,先来看看head处理多个文件的情况:ly5066113@ubuntu:~$ head [abc].txt==> a.txt <==abc==> b.txt <==def==> c.txt <==ghi复制代码下面我们用awk来达到这个效果:ly5066113@ubuntu:~$ awk 'FNR==1{if(NR>1) print "";print "==> "FILENAME" <=="}FNR<=10' [abc].txt==> a.txt <==abc==> b.txt <==def==> c.txt <==ghi复制代码让我们再深入考虑下,head在处理文件时,无论文件多大,速度都是很快的,awk是否也可以呢?上面的代码当然不可以,因为awk会处理整个文件,文件越大,速度越慢。单个文件时可以这样改写:awk '1;NR==10{exit}'复制代码多个文件时用exit就不行了,因为这样awk处理一个文件后就结束了,我们可以用nextfileawk 'FNR==1{if(NR>1) print "";print "==> "FILENAME" <=="}1;FNR==10{nextfile}' [abc].txt复制代码nextfile就是停止处理当前文件,开始处理下一个文件。我们再来看一个例子:每三个文件合并为一个大文件http://bbs.chinaunix.net/viewthread.php?tid=1792571帖子里的方法是用while read的方式实现的,下面给一个纯awk的方法:ly5066113@ubuntu:~$ awk 'FNR==1&&ARGIND%3==1{if(ARGIND>1){print s>f;s=""};f=sprintf("file%02d-%02d",ARGIND,ARGIND+2)}/^set/{print $0>f}/^plot/{$1=s?"":$1;s=s?s","$0:$0}END{print s>f}' file[0-9][0-9]ly5066113@ubuntu:~$ cat file01-03set arrow from 7,1633 to 8,1383set label "9575(100916104th)" at 6.5,1683set arrow from 7,1633 to 8,1383set label "9575(100916104th)" at 6.5,1683set arrow from 7,1633 to 8,1383set label "9575(100916104th)" at 6.5,1683plot "diff_029.file" with linespoints, "diff_029.file" with linespoints, "diff_029.file" with linespointsly5066113@ubuntu:~$ cat file04-06set arrow from 7,1633 to 8,1385set label "9575(100916104th)" at 6.5,1685set arrow from 7,1633 to 8,1383set label "9575(100916104th)" at 6.5,1683set arrow from 7,1633 to 8,1383set label "9575(100916104th)" at 6.5,1683plot "diff_029.file" with linespoints, "diff_029.file" with linespoints, "diff_029.file" with linespoints复制代码awk处理多个文件,是不是没想象中那么复杂呢?五、> 与 >> 差在哪这里的>和>>是awk内部的,不要和shell本身的>和>>混淆。ly5066113@ubuntu:~$ awk '{print NR,$0}' a.txt > b.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 cly5066113@ubuntu:~$ awk '{print NR,$0 > "b.txt"}' a.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 c复制代码第一句awk命令中的 > 就是shell本身的IO重定向,第二句awk命令中的 > 是awk内部的IO重定向awk中的 > 和 >> 类似perl的文件句柄,只在首次打开文件时有区别:ly5066113@ubuntu:~$ rm b.txtly5066113@ubuntu:~$ awk '{print NR,$0 > "b.txt"}' a.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 cly5066113@ubuntu:~$ rm b.txtly5066113@ubuntu:~$ awk '{print NR,$0 >> "b.txt"}' a.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 cly5066113@ubuntu:~$ awk '{print NR,$0 > "b.txt"}' a.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 cly5066113@ubuntu:~$ awk '{print NR,$0 >> "b.txt"}' a.txtly5066113@ubuntu:~$ cat b.txt1 a2 b3 c1 a2 b3 c复制代码如果文件不存在,那么 > 和 >> 是一样的如果文件已经存在,> 会覆盖原文件,>> 则是追加我们看到,在打开文件后,awk会一直向文件里追加记录,那么可以在awk里关闭文件么?这时我们就需要用到 closely5066113@ubuntu:~$ awk '{print NR,$0 > "b.txt";close("b.txt")}' a.txtly5066113@ubuntu:~$ cat b.txt3 c复制代码每次写入后都关闭文件,那么下次写入时就又重新打开文件而每次打开又是覆盖的方式,这样b.txt里最后就只剩下a.txt的最后一行记录说到awk中的IO就不得不提 getlinegetline               Set $0 from next input record; set NF, NR, FNR.getline <file         Set $0 from next record of file; set NF.getline var           Set var from next input record; set NR, FNR.getline var <file     Set var from next record of file.command | getline [var]                      Run command piping the output either into $0 or var, as above.复制代码getline的用法很灵活,可以从awk当前处理的文件中获取下一行记录也可以从外部的文件或者管道中获取记录,每次只取一行,赋给$0或者变量var先来看个简单的例子,实现 grep -A1ly5066113@ubuntu:~$ seq 10 | grep -A1 556ly5066113@ubuntu:~$ seq 10 | awk '/5/{print;getline;print}'56复制代码再看个例子:有没有将两个输出或者说变量上每列分别合在一起的方法http://bbs3.chinaunix.net/viewthread.php?tid=1752341$ var1='a> b> c> d'$ var2='A> B> C> D'$ export var2$ echo "$var1" | awk '{"echo \042$var2\042"|getline var2;print $1""var2}'aAbBcCdD复制代码


转自:http://bbs.chinaunix.net/thread-1790335-1-2.html
原创粉丝点击