awk基本用法

来源：互联网发布：单片机设计作品编辑：程序博客网时间：2024/06/08 03:37

从网上总结的：

概述
awk 是一种编程语言，她是由AT&T 贝尔实验室的Alfred Aho, Peter Weinberger 和Brian Kernighan开发的，Brian Kernighan（此公大家不陌生吧～）目前仍在维护及增强awk。awk的语法与C类似。

调用
1.awk ‘pattern-action statements’ input_file_list
2.将awk命令插入一个文件，并使awk程序可以执行，然后用awk命令解释器作为脚本首行。
3.将所有awk命令插入一个单独文件
awk -f awk-script-file inputfile

模式和动作
一个awk 程序是由一系列的"模式－动作"语句构成的：
pattern {action}
pattern {action}
pattern {action}
……

awk 程序为每个输入行依次地进行每一个"模式"的匹配寻找，对每一个匹配上的模式执行相应的"动作"，接着读取下一行并再次开始匹配，直到所有的输入都处理完毕。

在一条语句中可以省略"模式"或者"动作"，缺省的模式为匹配所有行，缺省的动作为输出当前行：print $0。无论何时，动作都必须用花括号引起来。

awk 从输入中一次读取一行（一条记录），缺省的行分割符（记录分割符）为\n。

然后awk 将记录分割为一个个的字段，缺省的字段分割符为“Blank”（空白）。一行中的第一个字段称为$1，第二个字段称为$2，. . . ，整个记录称为$0。

打印
一个动作可以没有模式，在这种情况下动作在所有行上执行。最简单的动作是打印某些或所有的记录；这可以通过 awk 命令 print 来完成。awk 程序{ print }打印每个记录，也就是把输入完好的复制到输出。更有用的是打印来自每个记录的一个字段或某些字段。例如

CODE

awk ‘{print $2, $1}’ filename

按逆序打印前两个字段。在 print 语句中用逗号分隔的项，在输出的时候会用当前输出字段分隔符分隔开。没有用逗号分隔的项会串联起来，所以

CODE

awk ‘{ print $1 $2 }’ filename

把第一个和第二个字段合在一起。

可以使用预定义的变量 NF 和 NR；例如

CODE

awk ‘{ print NR, NF, $0 }’ filename

打印出前导了记录数和字段数的每个记录。

输出可以被重定向到多个文件中

CODE

awk ‘{ print $1 >"foo1"; print $2 >"foo2" }’ filename

写第一个字段 $1 到文件 foo1 中，写第二个字段到文件 foo2 中。还可以使用 >> 符号:

CODE

awk ‘{ print $1 >>"foo" }’ filename

添加输出到文件 foo。(在每种情况下，输出文件都在必要时建立)。

文件名可以是一个变量或字段，同常量一样；例如

CODE

awk ‘{ print $1 >$2 }’ filename

使用字段 2 的内容作为文件名字。

自然的，有对输出文件数目的限制，目前是 10 个。

awk 还提供 printf 语句用于输出格式化:
printf format,expr, expr, …
依据在 format 中的规定格式化在列表中的表达式并打印它们。例如，

CODE

awk ‘{ printf "%8.2f %10ld\n", $1, $2 }’ filename

打印 $1 为 8 位宽的小数点后有两位的浮点数，打印 $2 为 10 位长的长十进制数，并跟随着一个换行。不自动生成输出分隔符；你必须自己增加它们，如这个例子那样。这个版本的printf 同于C 所使用的。

输出
1.抽取域

CODE

awk -F: ‘{print $1}’ /etc/passwd# -F 指定字段分割符

2.保存输出

CODE

awk -F: ‘{print $1}’ /etc/passwd |tee user

awk -F: ‘{print $1}’ /etc/passwd>user

3.使用标准输出

CODE

awk ‘/root/’ /etc/passwd# /xxx/为正则表达式，表示打印包含"root"的行

4.打印所有记录

CODE

awk ‘{print $0}’ /etc/passwd

5.打印表头

CODE

awk -F: ‘BEGIN {print "NAME\n"} {print $1}’/etc/passwd

6.打印表尾

CODE

awk -F: ‘{print $1} END {print "this is all users"}’ /etc/passwd

条件操作符
1.匹配

CODE

awk ‘{if($1~/root/) print $0}’ /etc/passwd #如果field1包含"root",打印该行

2.精确匹配
!= ==

3.不匹配
!~

4.大小比较
> >= < <=

5.设置大小写

CODE

awk ‘/^[Rr]oot/’ /etc/passwd# 打印包含行首为Root或者root的行

6.任意字符

CODE

awk ‘$2~/^…a/’ /etc/passwd# 打印第二个字段开头第四个字母为t的行

7.或关系匹配

CODE

awk ‘/(root|ftp)/’ /etc/passwd#打印包含"root"或者"ftp"的行

8.AND && OR ||

CODE

awk ‘{$1~/mail/ && $7==/bin/bash}’ /etc/passwd

系统变量:

ARGV命令行参数数组ENVIRON环境变量数组FILENAME当前输入文件名FNR当前文件中的记录号FS字段分隔符IGNORECASE忽略正则表达式和串的大小写NF当前记录中的字段数NR至今读取的记录数OFMT数的输出格式，缺省为"%.6g"OFS输出字段分隔符ORS输出记录分隔符RS输入记录分隔符RSTART由match() 匹配的第一个字符的索引RLENGTH由match() 匹配的串的长度SUBSEP下标分隔符，缺省为"�34"
$0当前记录（这个变量中存放着整个行的内容）$1~$n当前记录的第n个字段，字段间由FS分隔

内置字符串函数

gsub(r,s,t)在字符串t中，用字符串s替换和正则表达式r匹配的所有字符串。返回替换的个数。如果没有给出t，缺省为$0index(s,t) 返回s 中字符串t 的位置，不出现时为0length(s)返回字符串s 的长度，当没有给出s时，返回$0的长度match(s,r)返回r 在s 中出现的位置，不出现时为0。设置RSTART和RLENGTH的值split(s,a,r)利用r 把s 分裂成数组a，返回元素的个数。如果没有给出r，则使用FS。数组分割和字段分割采用同样的方式sprintf(fmt,expr_list) 根据格式串fmt，返回经过格式编排的expr_listsub(r,s,t)在字符串t中用s替换正则表达式t的首次匹配。如果成功则返回1，否则返回0。如果没有给出t，默认为$0substr(s,p,n)返回字符串s中从位置p开始最大长度为n的字串。如果没有给出n，返回从p开始剩余的字符串tolower(s)将串s 中的大写字母改为小写，返回新串toupper(s)将串s 中的小写字母改为大写，返回新串

gsub(r,s,t)：

CODE

echo ababab | awk ‘gsub(/a/,"c")’ # cbcbcb

sub(r,s,t)

CODE

echo ababab | awk ’sub(/a/,"c")’ # cbabab

其余函数自行尝试。

内置算术函数

cos(x) 返回x的余弦值sin(x)返回x的正弦值int(x)返回x的整数部分log(x)返回x的自然对数sqrt(x)返回x的平方根antan2(x) 返回y/x的反正切，值在 -π到 π之间rand()返回随机数r，0 <= r < 1srand(x)建立rand()的随机种子，如果没有指定种子，则按当天时间。返回旧的种子

cos(x)：

CODE

pai=$(echo"scale=66; a(1)*4" | bc -l)
awk -va=$pai‘BEGIN{print cos(a/4)}’ OR awk ‘BEGIN{print cos(’$pai‘/4)}’#0.707107

其余函数自行尝试。

附算术运算符

x^y x的y次幂
x**y 同上
x%y 计算x/y的余数（求模）
x+y x加y
x-y x减y
x*y x乘y
x/y x除y
-y 负y(y的开关符号);也称一目减
++y y加1后使用y(前置加）
y++ 使用y值后加1（后缀加）
–y y减1后使用y(前置减）
y– 使用后y减1(后缀减）
x=y 将y的值赋给x
x+=y 将x+y的值赋给x
x-=y 将x-y的值赋给x
x*=y 将x*y的值赋给x
x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x
x^=y 将x^y的值赋给x
x**=y 将x**y的值赋给x

怎么使用呢，比如：我们如果要输出行号：

$ awk '$3==0 && $6=="ESTABLISHED" || NR==1 {printf "%02s %s %-20s %-20s %s\n",NR, FNR, $4,$5,$6}' netstat.txt01 1 Local-Address        Foreign-Address      State07 7 coolshell.cn:80      110.194.134.189:1032 ESTABLISHED08 8 coolshell.cn:80      123.169.124.111:49809 ESTABLISHED10 10 coolshell.cn:80      123.169.124.111:49829 ESTABLISHED14 14 coolshell.cn:80      110.194.134.189:4796 ESTABLISHED17 17 coolshell.cn:80      123.169.124.111:49840 ESTABLISHED

指定分隔符

$  awk  'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwdroot 0 /rootbin 1 /bindaemon 2 /sbinadm 3 /var/admlp 4 /var/spool/lpdsync 5 /sbinshutdown 6 /sbinhalt 7 /sbin

上面的命令也等价于：（-F的意思就是指定分隔符）

$ awk  -F: '{print $1,$3,$6}' /etc/passwd

注：如果你要指定多个分隔符，你可以这样来：

awk -F '[;:]'

再来看一个以\t作为分隔符输出的例子（下面使用了/etc/passwd文件，这个文件是以:分隔的）：

$ awk  -F: '{print $1,$3,$6}' OFS="\t" /etc/passwdroot    0       /rootbin     1       /bindaemon  2       /sbinadm     3       /var/admlp      4       /var/spool/lpdsync    5       /sbin

脱掉衬衫

字符串匹配

我们再来看几个字符串匹配的示例：

$ awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT213      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT118      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2$ $ awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State5       coolshell.cn:80 124.205.5.146:18245     TIME_WAIT6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT211      coolshell.cn:80 183.60.215.36:36970     TIME_WAIT13      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT115      coolshell.cn:80 183.60.212.163:51082    TIME_WAIT18      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2

上面的第一个示例匹配FIN状态，第二个示例匹配WAIT字样的状态。其实 ~ 表示模式开始。/ /中是模式。这就是一个正则表达式的匹配。

其实awk可以像grep一样的去匹配第一行，就像这样：

$ awk '/LISTEN/' netstat.txttcp        0      0 0.0.0.0:3306            0.0.0.0:*               LISTENtcp        0      0 0.0.0.0:80              0.0.0.0:*               LISTENtcp        0      0 127.0.0.1:9000          0.0.0.0:*               LISTENtcp        0      0 :::22                   :::*                    LISTEN

我们可以使用 “/FIN|TIME/” 来匹配 FIN 或者 TIME :

$ awk '$6 ~ /FIN|TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State5       coolshell.cn:80 124.205.5.146:18245     TIME_WAIT6       coolshell.cn:80 61.140.101.185:37538    FIN_WAIT29       coolshell.cn:80 116.234.127.77:11502    FIN_WAIT211      coolshell.cn:80 183.60.215.36:36970     TIME_WAIT13      coolshell.cn:80 124.152.181.209:26825   FIN_WAIT115      coolshell.cn:80 183.60.212.163:51082    TIME_WAIT18      coolshell.cn:80 117.136.20.85:50025     FIN_WAIT2

再来看看模式取反的例子：

$ awk '$6 !~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1       Local-Address   Foreign-Address State2       0.0.0.0:3306    0.0.0.0:*       LISTEN3       0.0.0.0:80      0.0.0.0:*       LISTEN4       127.0.0.1:9000  0.0.0.0:*       LISTEN7       coolshell.cn:80 110.194.134.189:1032    ESTABLISHED8       coolshell.cn:80 123.169.124.111:49809   ESTABLISHED10      coolshell.cn:80 123.169.124.111:49829   ESTABLISHED12      coolshell.cn:80 61.148.242.38:30901     ESTABLISHED14      coolshell.cn:80 110.194.134.189:4796    ESTABLISHED16      coolshell.cn:80 208.115.113.92:50601    LAST_ACK17      coolshell.cn:80 123.169.124.111:49840   ESTABLISHED19      :::22   :::*    LISTEN

或是：

awk '!/WAIT/' netstat.txt

折分文件

awk拆分文件很简单，使用重定向就好了。下面这个例子，是按第6例分隔文件，相当的简单（其中的NR!=1表示不处理表头）。

$ awk 'NR!=1{print > $6}' netstat.txt$ lsESTABLISHED  FIN_WAIT1  FIN_WAIT2  LAST_ACK  LISTEN  netstat.txt  TIME_WAIT$ cat ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:1032        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49809       ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49829       ESTABLISHEDtcp        0   4166 coolshell.cn:80        61.148.242.38:30901         ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:4796        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49840       ESTABLISHED$ cat FIN_WAIT1tcp        0      1 coolshell.cn:80        124.152.181.209:26825       FIN_WAIT1$ cat FIN_WAIT2tcp        0      0 coolshell.cn:80        61.140.101.185:37538        FIN_WAIT2tcp        0      0 coolshell.cn:80        116.234.127.77:11502        FIN_WAIT2tcp        0      0 coolshell.cn:80        117.136.20.85:50025         FIN_WAIT2$ cat LAST_ACKtcp        0      1 coolshell.cn:80        208.115.113.92:50601        LAST_ACK$ cat LISTENtcp        0      0 0.0.0.0:3306           0.0.0.0:*                   LISTENtcp        0      0 0.0.0.0:80             0.0.0.0:*                   LISTENtcp        0      0 127.0.0.1:9000         0.0.0.0:*                   LISTENtcp        0      0 :::22                  :::*                        LISTEN$ cat TIME_WAITtcp        0      0 coolshell.cn:80        124.205.5.146:18245         TIME_WAITtcp        0      0 coolshell.cn:80        183.60.215.36:36970         TIME_WAITtcp        0      0 coolshell.cn:80        183.60.212.163:51082        TIME_WAIT

你也可以把指定的列输出到文件：

awk 'NR!=1{print $4,$5 > $6}' netstat.txt

再复杂一点：（注意其中的if-else-if语句，可见awk其实是个脚本解释器）

$ awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";else if($6 ~ /LISTEN/) print > "2.txt";else print > "3.txt" }' netstat.txt$ ls ?.txt1.txt  2.txt  3.txt$ cat 1.txttcp        0      0 coolshell.cn:80        124.205.5.146:18245         TIME_WAITtcp        0      0 coolshell.cn:80        110.194.134.189:1032        ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49809       ESTABLISHEDtcp        0      0 coolshell.cn:80        123.169.124.111:49829       ESTABLISHEDtcp        0      0 coolshell.cn:80        183.60.215.36:36970         TIME_WAITtcp        0   4166 coolshell.cn:80        61.148.242.38:30901         ESTABLISHEDtcp        0      0 coolshell.cn:80        110.194.134.189:4796        ESTABLISHEDtcp        0      0 coolshell.cn:80        183.60.212.163:51082        TIME_WAITtcp        0      0 coolshell.cn:80        123.169.124.111:49840       ESTABLISHED$ cat 2.txttcp        0      0 0.0.0.0:3306           0.0.0.0:*                   LISTENtcp        0      0 0.0.0.0:80             0.0.0.0:*                   LISTENtcp        0      0 127.0.0.1:9000         0.0.0.0:*                   LISTENtcp        0      0 :::22                  :::*                        LISTEN$ cat 3.txttcp        0      0 coolshell.cn:80        61.140.101.185:37538        FIN_WAIT2tcp        0      0 coolshell.cn:80        116.234.127.77:11502        FIN_WAIT2tcp        0      1 coolshell.cn:80        124.152.181.209:26825       FIN_WAIT1tcp        0      1 coolshell.cn:80        208.115.113.92:50601        LAST_ACKtcp        0      0 coolshell.cn:80        117.136.20.85:50025         FIN_WAIT2

统计

下面的命令计算所有的C文件，CPP文件和H文件的文件大小总和。

$ ls -l  *.cpp *.c *.h | awk '{sum+=$5} END {print sum}'2511401

我们再来看一个统计各个connection状态的用法：（我们可以看到一些编程的影子了，大家都是程序员我就不解释了。注意其中的数组的用法）

$ awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txtTIME_WAIT, 3FIN_WAIT1, 1ESTABLISHED, 6FIN_WAIT2, 3LAST_ACK, 1LISTEN, 4

再来看看统计每个用户的进程的占了多少内存（注：sum的RSS那一列）

$ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'dbus, 540KBmysql, 99928KBwww, 3264924KBroot, 63644KBhchen, 6020KB

脱掉内衣

awk脚本

在上面我们可以看到一个END关键字。END的意思是“处理完所有的行的标识”，即然说到了END就有必要介绍一下BEGIN，这两个关键字意味着执行前和执行后的意思，语法如下：

BEGIN{ 这里面放的是执行前的语句 }
END {这里面放的是处理完所有的行后要执行的语句 }
{这里面放的是处理每一行时要执行的语句}

为了说清楚这个事，我们来看看下面的示例：

假设有这么一个文件（学生成绩表）：

$ cat score.txtMarry   2143 78 84 77Jack    2321 66 78 45Tom     2122 48 77 71Mike    2537 87 97 95Bob     2415 40 57 62

我们的awk脚本如下（我没有写有命令行上是因为命令行上不易读，另外也在介绍另一种用法）：

$ cat cal.awk#!/bin/awk -f#运行前BEGIN {    math = 0    english = 0    computer = 0    printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"    printf "---------------------------------------------\n"}#运行中{    math+=$3    english+=$4    computer+=$5    printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5}#运行后END {    printf "---------------------------------------------\n"    printf "  TOTAL:%10d %8d %8d \n", math, english, computer    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR}

我们来看一下执行结果：（也可以这样运行 ./cal.awk score.txt）

$ awk -f cal.awk score.txtNAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL---------------------------------------------Marry  2143     78       84       77      239Jack   2321     66       78       45      189Tom    2122     48       77       71      196Mike   2537     87       97       95      279Bob    2415     40       57       62      159---------------------------------------------  TOTAL:       319      393      350AVERAGE:     63.80    78.60    70.00

环境变量

即然说到了脚本，我们来看看怎么和环境变量交互：（使用-v参数和ENVIRON，使用ENVIRON的环境变量需要export）

$ x=5$ y=10$ export y$ echo $x $y5 10$ awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txtMarry   2143    78      89      87Jack    2321    66      83      55Tom     2122    48      82      81Mike    2537    87      102     105Bob     2415    40      62      72

几个花活

最后，我们再来看几个小例子：

#从file文件中找出长度大于80的行awk 'length>80' file#按连接数查看客户端IPnetstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr#打印99乘法表seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'

自己撸吧

关于其中的一些知识点可以参看gawk的手册：

内建变量，参看：http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din-Variables
流控方面，参看：http://www.gnu.org/software/gawk/manual/gawk.html#Statements
内建函数，参看：http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din
正则表达式，参看：http://www.gnu.org/software/gawk/manual/gawk.html#Regexp