awk基本用法

来源:互联网 发布:单片机设计作品 编辑:程序博客网 时间:2024/06/08 03:37

从网上总结的:

概述
awk 是一种编程语言,她是由AT&T 贝尔实验室的Alfred Aho, Peter Weinberger 和Brian Kernighan开发的,Brian Kernighan(此公大家不陌生吧~) 目前仍在维护及增强awk。awk的语法与C类似。

调用
1.awk ‘pattern-action statements’ input_file_list
2.将awk命令插入一个文件,并使awk程序可以执行,然后用awk命令解释器作为脚本首行。
3.将所有awk命令插入一个单独文件
    awk -f awk-script-file inputfile

模式和动作
一个awk 程序是由一系列的"模式-动作"语句构成的:
pattern {action}
pattern {action}
pattern {action}
……

awk 程序为每个输入行依次地进行每一个"模式"的匹配寻找,对每一个匹配上的模式执行相应的"动作",接着读取下一行并再次开始匹配,直到所有的输入都处理完毕。

在一条语句中可以省略"模式"或者"动作",缺省的模式为匹配所有行,缺省的动作为输出当前行:print $0。无论何时,动作都必须用花括号引起来。

awk 从输入中一次读取一行(一条记录),缺省的行分割符(记录分割符)为\n。

然后awk 将记录分割为一个个的字段,缺省的字段分割符为“Blank”(空白)。一行中的第一个字段称为$1,第二个字段称为$2,. . . ,整个记录称为$0。

打印
一个动作可以没有模式,在这种情况下动作在所有行上执行。最简单的动作是打印某些或所有的记录;这可以通过 awk 命令 print 来完成。awk 程序{ print }打印每个记录,也就是把输入完好的复制到输出。更有用的是打印来自每个记录的一个字段或某些字段。例如

CODE

awk ‘{print $2, $1}’ filename

按逆序打印前两个字段。在 print 语句中用逗号分隔的项,在输出的时候会用当前输出字段分隔符分隔开。没有用逗号分隔的项会串联起来,所以

CODE

awk ‘{ print $1 $2 }’ filename

把第一个和第二个字段合在一起。

可以使用预定义的变量 NF 和 NR;例如

CODE

awk ‘{ print NR, NF, $0 }’ filename

打印出前导了记录数和字段数的每个记录。

输出可以被重定向到多个文件中

CODE

awk ‘{ print $1 >"foo1"; print $2 >"foo2" }’ filename

写第一个字段 $1 到文件 foo1 中,写第二个字段到文件 foo2 中。还可以使用 >> 符号:

CODE

awk ‘{ print $1 >>"foo" }’ filename

添加输出到文件 foo。(在每种情况下,输出文件都在必要时建立)。

文件名可以是一个变量或字段,同常量一样;例如

CODE

awk ‘{ print $1 >$2 }’ filename

使用字段 2 的内容作为文件名字。

自然的,有对输出文件数目的限制,目前是 10 个。

awk 还提供 printf 语句用于输出格式化:
    printf format,expr, expr, …
依据在 format 中的规定格式化在列表中的表达式并打印它们。例如,

CODE

awk ‘{ printf "%8.2f %10ld\n", $1, $2 }’ filename

打印 $1 为 8 位宽的小数点后有两位的浮点数,打印 $2 为 10 位长的长十进制数,并跟随着一个换行。不自动生成输出分隔符;你必须自己增加它们,如这个例子那样。这个版本的printf 同于C 所使用的。

输出
1.抽取域

 

CODE

awk -F: ‘{print $1}’ /etc/passwd# -F 指定字段分割符

2.保存输出

 

CODE

awk -F: ‘{print $1}’ /etc/passwd |tee user

awk -F: ‘{print $1}’ /etc/passwd>user

3.使用标准输出

CODE

awk ‘/root/’ /etc/passwd# /xxx/为正则表达式,表示打印包含"root"的行

4.打印所有记录

CODE

awk ‘{print $0}’ /etc/passwd

5.打印表头

CODE

awk -F: ‘BEGIN {print "NAME\n"} {print $1}’/etc/passwd

6.打印表尾

 

CODE

awk -F: ‘{print $1} END {print "this is all users"}’ /etc/passwd

条件操作符
1.匹配

 

CODE

awk ‘{if($1~/root/) print $0}’ /etc/passwd    #如果field1包含"root",打印该行

2.精确匹配
!=  ==

3.不匹配
!~

4.大小比较
> >= < <=

5.设置大小写

CODE

awk ‘/^[Rr]oot/’ /etc/passwd# 打印包含行首为Root或者root的行

6.任意字符

CODE

awk ‘$2~/^…a/’ /etc/passwd# 打印第二个字段开头第四个字母为t的行

7.或关系匹配

CODE

awk ‘/(root|ftp)/’ /etc/passwd#打印包含"root"或者"ftp"的行

8.AND &&    OR  ||

CODE

awk ‘{$1~/mail/ && $7==/bin/bash}’ /etc/passwd


系统变量:

ARGV命令行参数数组ENVIRON环境变量数组FILENAME当前输入文件名FNR当前文件中的记录号FS字段分隔符IGNORECASE忽略正则表达式和串的大小写NF当前记录中的字段数NR至今读取的记录数OFMT数的输出格式,缺省为"%.6g"OFS输出字段分隔符ORS输出记录分隔符RS输入记录分隔符RSTART由match() 匹配的第一个字符的索引RLENGTH由match() 匹配的串的长度SUBSEP下标分隔符,缺省为"�34"
$0当前记录(这个变量中存放着整个行的内容)$1~$n当前记录的第n个字段,字段间由FS分隔 

内置字符串函数

gsub(r,s,t)在字符串t中,用字符串s替换和正则表达式r匹配的所有字符串。返回替换的个数。如果没有给出t,缺省为$0index(s,t)  返回s 中字符串t 的位置,不出现时为0length(s)返回字符串s 的长度,当没有给出s时,返回$0的长度match(s,r)返回r 在s 中出现的位置,不出现时为0。设置RSTARTRLENGTH的值split(s,a,r)利用r 把s 分裂成数组a,返回元素的个数。如果没有给出r,则使用FS。数组分割和字段分割采用同样的方式sprintf(fmt,expr_list)  根据格式串fmt,返回经过格式编排的expr_listsub(r,s,t)在字符串t中用s替换正则表达式t的首次匹配。如果成功则返回1,否则返回0。如果没有给出t,默认为$0substr(s,p,n)返回字符串s中从位置p开始最大长度为n的字串。如果没有给出n,返回从p开始剩余的字符串tolower(s)将串s 中的大写字母改为小写,返回新串toupper(s)将串s 中的小写字母改为大写,返回新串
 

gsub(r,s,t):

CODE

echo ababab | awk ‘gsub(/a/,"c")’ # cbcbcb


sub(r,s,t)

CODE

echo ababab | awk ’sub(/a/,"c")’  # cbabab


其余函数自行尝试。

内置算术函数

cos(x)   返回x的余弦值sin(x)返回x的正弦值int(x)返回x的整数部分log(x)返回x的自然对数sqrt(x)返回x的平方根antan2(x)      返回y/x的反正切,值在 -π到 π之间rand()返回随机数r,0 <= r < 1srand(x)建立rand()的随机种子,如果没有指定种子,则按当天时间。返回旧的种子
 

cos(x):

CODE
CODE

pai=$(echo"scale=66; a(1)*4" | bc -l)
awk -va=$pai‘BEGIN{print cos(a/4)}’ OR awk ‘BEGIN{print cos(’$pai‘/4)}’#0.707107

其余函数自行尝试。     

附算术运算符

x^y x的y次幂
x**y 同上
x%y 计算x/y的余数(求模)
x+y x加y
x-y x减y
x*y x乘y
x/y x除y
-y 负y(y的开关符号);也称一目减
++y y加1后使用y(前置加)
y++ 使用y值后加1(后缀加)
–y y减1后使用y(前置减)
y– 使用后y减1(后缀减)
x=y 将y的值赋给x
x+=y 将x+y的值赋给x
x-=y 将x-y的值赋给x
x*=y 将x*y的值赋给x
x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x
x^=y 将x^y的值赋给x
x**=y 将x**y的值赋给x

怎么使用呢,比如:我们如果要输出行号:

$ awk '$3==0 && $6=="ESTABLISHED" || NR==1 {printf "%02s %s %-20s %-20s %s\n",NR, FNR, $4,$5,$6}' netstat.txt01 1 Local-Address        Foreign-Address      State07 7 coolshell.cn:80      110.194.134.189:1032 ESTABLISHED08 8 coolshell.cn:80      123.169.124.111:49809 ESTABLISHED10 10 coolshell.cn:80      123.169.124.111:49829 ESTABLISHED14 14 coolshell.cn:80      110.194.134.189:4796 ESTABLISHED17 17 coolshell.cn:80      123.169.124.111:49840 ESTABLISHED
指定分隔符
$  awk  'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwdroot 0 /rootbin 1 /bindaemon 2 /sbinadm 3 /var/admlp 4 /var/spool/lpdsync 5 /sbinshutdown 6 /sbinhalt 7 /sbin

上面的命令也等价于:(-F的意思就是指定分隔符)

$ awk  -F: '{print $1,$3,$6}' /etc/passwd

注:如果你要指定多个分隔符,你可以这样来:

awk -F '[;:]'

再来看一个以\t作为分隔符输出的例子(下面使用了/etc/passwd文件,这个文件是以:分隔的):

$ awk  -F: '{print $1,$3,$6}' OFS="\t" /etc/passwdroot    0       /rootbin     1       /bindaemon  2       /sbinadm     3       /var/admlp      4       /var/spool/lpdsync    5       /sbin

脱掉衬衫

字符串匹配

我们再来看几个字符串匹配的示例:

$ awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT213      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT118      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2$ $ awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State5       coolshell.cn:80 124.205.5.146:18245     TIME_WAIT6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT211      coolshell.cn:80 183.60.215.36:36970     TIME_WAIT13      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT115      coolshell.cn:80 183.60.212.163:51082    TIME_WAIT18      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2

上面的第一个示例匹配FIN状态, 第二个示例匹配WAIT字样的状态。其实 ~ 表示模式开始。/ /中是模式。这就是一个正则表达式的匹配。

其实awk可以像grep一样的去匹配第一行,就像这样:

$ awk '/LISTEN/' netstat.txttcp        0      0 0.0.0.0:3306            0.0.0.0:*               LISTENtcp        0      0 0.0.0.0:80              0.0.0.0:*               LISTENtcp        0      0 127.0.0.1:9000          0.0.0.0:*               LISTENtcp        0      0 :::22                   :::*                    LISTEN

我们可以使用 “/FIN|TIME/” 来匹配 FIN 或者 TIME :

$ awk '$6 ~ /FIN|TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State5       coolshell.cn:80 124.205.5.146:18245     TIME_WAIT6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT211      coolshell.cn:80 183.60.215.36:36970     TIME_WAIT13      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT115      coolshell.cn:80 183.60.212.163:51082    TIME_WAIT18      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2

再来看看模式取反的例子:

$ awk '$6 !~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State2       0.0.0.0:3306    0.0.0.0:*       LISTEN3       0.0.0.0:80      0.0.0.0:*       LISTEN4       127.0.0.1:9000  0.0.0.0:*       LISTEN7       coolshell.cn:80 110.194.134.189:1032    ESTABLISHED8       coolshell.cn:80 123.169.124.111:49809   ESTABLISHED10      coolshell.cn:80 123.169.124.111:49829   ESTABLISHED12      coolshell.cn:80 61.148.242.38:30901     ESTABLISHED14      coolshell.cn:80 110.194.134.189:4796    ESTABLISHED16      coolshell.cn:80 208.115.113.92:50601    LAST_ACK17      coolshell.cn:80 123.169.124.111:49840   ESTABLISHED19      :::22   :::*    LISTEN

或是:

awk '!/WAIT/' netstat.txt

折分文件

awk拆分文件很简单,使用重定向就好了。下面这个例子,是按第6例分隔文件,相当的简单(其中的NR!=1表示不处理表头)。

$ awk 'NR!=1{print > $6}' netstat.txt$ lsESTABLISHED  FIN_WAIT1  FIN_WAIT2  LAST_ACK  LISTEN  netstat.txt  TIME_WAIT$ cat ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:1032        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49809       ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49829       ESTABLISHEDtcp        0   4166 coolshell.cn:80        61.148.242.38:30901         ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:4796        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49840       ESTABLISHED$ cat FIN_WAIT1tcp        0      1 coolshell.cn:80        124.152.181.209:26825       FIN_WAIT1$ cat FIN_WAIT2tcp        0      0 coolshell.cn:80        61.140.101.185:37538        FIN_WAIT2tcp        0      0 coolshell.cn:80        116.234.127.77:11502        FIN_WAIT2tcp        0      0 coolshell.cn:80        117.136.20.85:50025         FIN_WAIT2$ cat LAST_ACKtcp        0      1 coolshell.cn:80        208.115.113.92:50601        LAST_ACK$ cat LISTENtcp        0      0 0.0.0.0:3306           0.0.0.0:*                   LISTENtcp        0      0 0.0.0.0:80             0.0.0.0:*                   LISTENtcp        0      0 127.0.0.1:9000         0.0.0.0:*                   LISTENtcp        0      0 :::22                  :::*                        LISTEN$ cat TIME_WAITtcp        0      0 coolshell.cn:80        124.205.5.146:18245         TIME_WAITtcp        0      0 coolshell.cn:80        183.60.215.36:36970         TIME_WAITtcp        0      0 coolshell.cn:80        183.60.212.163:51082        TIME_WAIT

你也可以把指定的列输出到文件:

awk 'NR!=1{print $4,$5 > $6}' netstat.txt

再复杂一点:(注意其中的if-else-if语句,可见awk其实是个脚本解释器)

$ awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";else if($6 ~ /LISTEN/) print > "2.txt";else print > "3.txt" }' netstat.txt$ ls ?.txt1.txt  2.txt  3.txt$ cat 1.txttcp        0      0 coolshell.cn:80        124.205.5.146:18245         TIME_WAITtcp        0      0 coolshell.cn:80        110.194.134.189:1032        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49809       ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49829       ESTABLISHEDtcp        0      0 coolshell.cn:80        183.60.215.36:36970         TIME_WAITtcp        0   4166 coolshell.cn:80        61.148.242.38:30901         ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:4796        ESTABLISHEDtcp        0      0 coolshell.cn:80        183.60.212.163:51082        TIME_WAITtcp        0      0 coolshell.cn:80        123.169.124.111:49840       ESTABLISHED$ cat 2.txttcp        0      0 0.0.0.0:3306           0.0.0.0:*                   LISTENtcp        0      0 0.0.0.0:80             0.0.0.0:*                   LISTENtcp        0      0 127.0.0.1:9000         0.0.0.0:*                   LISTENtcp        0      0 :::22                  :::*                        LISTEN$ cat 3.txttcp        0      0 coolshell.cn:80        61.140.101.185:37538        FIN_WAIT2tcp        0      0 coolshell.cn:80        116.234.127.77:11502        FIN_WAIT2tcp        0      1 coolshell.cn:80        124.152.181.209:26825       FIN_WAIT1tcp        0      1 coolshell.cn:80        208.115.113.92:50601        LAST_ACKtcp        0      0 coolshell.cn:80        117.136.20.85:50025         FIN_WAIT2
统计

下面的命令计算所有的C文件,CPP文件和H文件的文件大小总和。

$ ls -l  *.cpp *.c *.h | awk '{sum+=$5} END {print sum}'2511401

我们再来看一个统计各个connection状态的用法:(我们可以看到一些编程的影子了,大家都是程序员我就不解释了。注意其中的数组的用法)

$ awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txtTIME_WAIT, 3FIN_WAIT1, 1ESTABLISHED, 6FIN_WAIT2, 3LAST_ACK, 1LISTEN, 4

再来看看统计每个用户的进程的占了多少内存(注:sum的RSS那一列)

$ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'dbus, 540KBmysql, 99928KBwww, 3264924KBroot, 63644KBhchen, 6020KB

脱掉内衣

awk脚本

在上面我们可以看到一个END关键字。END的意思是“处理完所有的行的标识”,即然说到了END就有必要介绍一下BEGIN,这两个关键字意味着执行前和执行后的意思,语法如下:

  • BEGIN{ 这里面放的是执行前的语句 }
  • END {这里面放的是处理完所有的行后要执行的语句 }
  • {这里面放的是处理每一行时要执行的语句}

为了说清楚这个事,我们来看看下面的示例:

假设有这么一个文件(学生成绩表):

$ cat score.txtMarry   2143 78 84 77Jack    2321 66 78 45Tom     2122 48 77 71Mike    2537 87 97 95Bob     2415 40 57 62

我们的awk脚本如下(我没有写有命令行上是因为命令行上不易读,另外也在介绍另一种用法):

$ cat cal.awk#!/bin/awk -f#运行前BEGIN {    math = 0    english = 0    computer = 0    printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"    printf "---------------------------------------------\n"}#运行中{    math+=$3    english+=$4    computer+=$5    printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5}#运行后END {    printf "---------------------------------------------\n"    printf "  TOTAL:%10d %8d %8d \n", math, english, computer    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR}

我们来看一下执行结果:(也可以这样运行 ./cal.awk score.txt)

$ awk -f cal.awk score.txtNAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL---------------------------------------------Marry  2143     78       84       77      239Jack   2321     66       78       45      189Tom    2122     48       77       71      196Mike   2537     87       97       95      279Bob    2415     40       57       62      159---------------------------------------------  TOTAL:       319      393      350AVERAGE:     63.80    78.60    70.00
环境变量

即然说到了脚本,我们来看看怎么和环境变量交互:(使用-v参数和ENVIRON,使用ENVIRON的环境变量需要export)

$ x=5$ y=10$ export y$ echo $x $y5 10$ awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txtMarry   2143    78      89      87Jack    2321    66      83      55Tom     2122    48      82      81Mike    2537    87      102     105Bob     2415    40      62      72

几个花活

最后,我们再来看几个小例子:

#从file文件中找出长度大于80的行awk 'length>80' file#按连接数查看客户端IPnetstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr#打印99乘法表seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}' 

自己撸吧

关于其中的一些知识点可以参看gawk的手册:

  • 内建变量,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din-Variables
  • 流控方面,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Statements
  • 内建函数,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din
  • 正则表达式,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Regexp