awk基本用法
来源:互联网 发布:单片机设计作品 编辑:程序博客网 时间:2024/06/08 03:37
从网上总结的:
概述
awk 是一种编程语言,她是由AT&T 贝尔实验室的Alfred Aho, Peter Weinberger 和Brian Kernighan开发的,Brian Kernighan(此公大家不陌生吧~) 目前仍在维护及增强awk。awk的语法与C类似。
调用
1.awk ‘pattern-action statements’ input_file_list
2.将awk命令插入一个文件,并使awk程序可以执行,然后用awk命令解释器作为脚本首行。
3.将所有awk命令插入一个单独文件
awk -f awk-script-file inputfile
模式和动作
一个awk 程序是由一系列的"模式-动作"语句构成的:
pattern {action}
pattern {action}
pattern {action}
……
awk 程序为每个输入行依次地进行每一个"模式"的匹配寻找,对每一个匹配上的模式执行相应的"动作",接着读取下一行并再次开始匹配,直到所有的输入都处理完毕。
在一条语句中可以省略"模式"或者"动作",缺省的模式为匹配所有行,缺省的动作为输出当前行:print $0。无论何时,动作都必须用花括号引起来。
awk 从输入中一次读取一行(一条记录),缺省的行分割符(记录分割符)为\n。
然后awk 将记录分割为一个个的字段,缺省的字段分割符为“Blank”(空白)。一行中的第一个字段称为$1,第二个字段称为$2,. . . ,整个记录称为$0。
打印
一个动作可以没有模式,在这种情况下动作在所有行上执行。最简单的动作是打印某些或所有的记录;这可以通过 awk 命令 print 来完成。awk 程序{ print }打印每个记录,也就是把输入完好的复制到输出。更有用的是打印来自每个记录的一个字段或某些字段。例如
awk ‘{print $2, $1}’ filename
按逆序打印前两个字段。在 print 语句中用逗号分隔的项,在输出的时候会用当前输出字段分隔符分隔开。没有用逗号分隔的项会串联起来,所以
awk ‘{ print $1 $2 }’ filename
把第一个和第二个字段合在一起。
可以使用预定义的变量 NF 和 NR;例如
awk ‘{ print NR, NF, $0 }’ filename
打印出前导了记录数和字段数的每个记录。
输出可以被重定向到多个文件中
awk ‘{ print $1 >"foo1"; print $2 >"foo2" }’ filename
写第一个字段 $1 到文件 foo1 中,写第二个字段到文件 foo2 中。还可以使用 >> 符号:
awk ‘{ print $1 >>"foo" }’ filename
添加输出到文件 foo。(在每种情况下,输出文件都在必要时建立)。
文件名可以是一个变量或字段,同常量一样;例如
awk ‘{ print $1 >$2 }’ filename
使用字段 2 的内容作为文件名字。
自然的,有对输出文件数目的限制,目前是 10 个。
awk 还提供 printf 语句用于输出格式化:
printf format,expr, expr, …
依据在 format 中的规定格式化在列表中的表达式并打印它们。例如,
awk ‘{ printf "%8.2f %10ld\n", $1, $2 }’ filename
打印 $1 为 8 位宽的小数点后有两位的浮点数,打印 $2 为 10 位长的长十进制数,并跟随着一个换行。不自动生成输出分隔符;你必须自己增加它们,如这个例子那样。这个版本的printf 同于C 所使用的。
输出
1.抽取域
awk -F: ‘{print $1}’ /etc/passwd# -F 指定字段分割符
2.保存输出
awk -F: ‘{print $1}’ /etc/passwd |tee user
awk -F: ‘{print $1}’ /etc/passwd>user
3.使用标准输出
awk ‘/root/’ /etc/passwd# /xxx/为正则表达式,表示打印包含"root"的行
4.打印所有记录
awk ‘{print $0}’ /etc/passwd
5.打印表头
awk -F: ‘BEGIN {print "NAME\n"} {print $1}’/etc/passwd
6.打印表尾
awk -F: ‘{print $1} END {print "this is all users"}’ /etc/passwd
条件操作符
1.匹配
awk ‘{if($1~/root/) print $0}’ /etc/passwd #如果field1包含"root",打印该行
2.精确匹配
!= ==
3.不匹配
!~
4.大小比较
> >= < <=
5.设置大小写
awk ‘/^[Rr]oot/’ /etc/passwd# 打印包含行首为Root或者root的行
6.任意字符
awk ‘$2~/^…a/’ /etc/passwd# 打印第二个字段开头第四个字母为t的行
7.或关系匹配
awk ‘/(root|ftp)/’ /etc/passwd#打印包含"root"或者"ftp"的行
8.AND && OR ||
awk ‘{$1~/mail/ && $7==/bin/bash}’ /etc/passwd
系统变量:
ARGV命令行参数数组ENVIRON环境变量数组FILENAME当前输入文件名FNR当前文件中的记录号FS字段分隔符IGNORECASE忽略正则表达式和串的大小写NF当前记录中的字段数NR至今读取的记录数OFMT数的输出格式,缺省为"%.6g"OFS输出字段分隔符ORS输出记录分隔符RS输入记录分隔符RSTART由match() 匹配的第一个字符的索引RLENGTH由match() 匹配的串的长度SUBSEP下标分隔符,缺省为"�34"$0当前记录(这个变量中存放着整个行的内容)$1~$n当前记录的第n个字段,字段间由FS分隔
内置字符串函数
gsub(r,s,t)在字符串t中,用字符串s替换和正则表达式r匹配的所有字符串。返回替换的个数。如果没有给出t,缺省为$0index(s,t) 返回s 中字符串t 的位置,不出现时为0length(s)返回字符串s 的长度,当没有给出s时,返回$0的长度match(s,r)返回r 在s 中出现的位置,不出现时为0。设置RSTART和RLENGTH的值split(s,a,r)利用r 把s 分裂成数组a,返回元素的个数。如果没有给出r,则使用FS。数组分割和字段分割采用同样的方式sprintf(fmt,expr_list) 根据格式串fmt,返回经过格式编排的expr_listsub(r,s,t)在字符串t中用s替换正则表达式t的首次匹配。如果成功则返回1,否则返回0。如果没有给出t,默认为$0substr(s,p,n)返回字符串s中从位置p开始最大长度为n的字串。如果没有给出n,返回从p开始剩余的字符串tolower(s)将串s 中的大写字母改为小写,返回新串toupper(s)将串s 中的小写字母改为大写,返回新串
gsub(r,s,t):
echo ababab | awk ‘gsub(/a/,"c")’ # cbcbcb
sub(r,s,t)
echo ababab | awk ’sub(/a/,"c")’ # cbabab
其余函数自行尝试。
内置算术函数
cos(x) 返回x的余弦值sin(x)返回x的正弦值int(x)返回x的整数部分log(x)返回x的自然对数sqrt(x)返回x的平方根antan2(x) 返回y/x的反正切,值在 -π到 π之间rand()返回随机数r,0 <= r < 1srand(x)建立rand()的随机种子,如果没有指定种子,则按当天时间。返回旧的种子
cos(x):
pai=$(echo"scale=66; a(1)*4" | bc -l)
awk -va=$pai‘BEGIN{print cos(a/4)}’ OR awk ‘BEGIN{print cos(’$pai‘/4)}’#0.707107
其余函数自行尝试。
附算术运算符
x^y x的y次幂
x**y 同上
x%y 计算x/y的余数(求模)
x+y x加y
x-y x减y
x*y x乘y
x/y x除y
-y 负y(y的开关符号);也称一目减
++y y加1后使用y(前置加)
y++ 使用y值后加1(后缀加)
–y y减1后使用y(前置减)
y– 使用后y减1(后缀减)
x=y 将y的值赋给x
x+=y 将x+y的值赋给x
x-=y 将x-y的值赋给x
x*=y 将x*y的值赋给x
x/=y 将x/y的值赋给x x%=y 将x%y的值赋给x
x^=y 将x^y的值赋给x
x**=y 将x**y的值赋给x
怎么使用呢,比如:我们如果要输出行号:
$ awk '$3==0 && $6=="ESTABLISHED" || NR==1 {printf "%02s %s %-20s %-20s %s\n",NR, FNR, $4,$5,$6}' netstat.txt01 1 Local-Address Foreign-Address State07 7 coolshell.cn:80 110.194.134.189:1032 ESTABLISHED08 8 coolshell.cn:80 123.169.124.111:49809 ESTABLISHED10 10 coolshell.cn:80 123.169.124.111:49829 ESTABLISHED14 14 coolshell.cn:80 110.194.134.189:4796 ESTABLISHED17 17 coolshell.cn:80 123.169.124.111:49840 ESTABLISHED
指定分隔符
$ awk 'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwdroot 0 /rootbin 1 /bindaemon 2 /sbinadm 3 /var/admlp 4 /var/spool/lpdsync 5 /sbinshutdown 6 /sbinhalt 7 /sbin
上面的命令也等价于:(-F的意思就是指定分隔符)
$ awk -F: '{print $1,$3,$6}' /etc/passwd
注:如果你要指定多个分隔符,你可以这样来:
awk -F '[;:]'
再来看一个以\t作为分隔符输出的例子(下面使用了/etc/passwd文件,这个文件是以:分隔的):
$ awk -F: '{print $1,$3,$6}' OFS="\t" /etc/passwdroot 0 /rootbin 1 /bindaemon 2 /sbinadm 3 /var/admlp 4 /var/spool/lpdsync 5 /sbin
脱掉衬衫
字符串匹配
我们再来看几个字符串匹配的示例:
$ awk '$6 ~ /FIN/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1 Local-Address Foreign-Address State6 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT29 coolshell.cn:80 116.234.127.77:11502 FIN_WAIT213 coolshell.cn:80 124.152.181.209:26825 FIN_WAIT118 coolshell.cn:80 117.136.20.85:50025 FIN_WAIT2$ $ awk '$6 ~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1 Local-Address Foreign-Address State5 coolshell.cn:80 124.205.5.146:18245 TIME_WAIT6 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT29 coolshell.cn:80 116.234.127.77:11502 FIN_WAIT211 coolshell.cn:80 183.60.215.36:36970 TIME_WAIT13 coolshell.cn:80 124.152.181.209:26825 FIN_WAIT115 coolshell.cn:80 183.60.212.163:51082 TIME_WAIT18 coolshell.cn:80 117.136.20.85:50025 FIN_WAIT2
上面的第一个示例匹配FIN状态, 第二个示例匹配WAIT字样的状态。其实 ~ 表示模式开始。/ /中是模式。这就是一个正则表达式的匹配。
其实awk可以像grep一样的去匹配第一行,就像这样:
$ awk '/LISTEN/' netstat.txttcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTENtcp 0 0 0.0.0.0:80 0.0.0.0:* LISTENtcp 0 0 127.0.0.1:9000 0.0.0.0:* LISTENtcp 0 0 :::22 :::* LISTEN
我们可以使用 “/FIN|TIME/” 来匹配 FIN 或者 TIME :
$ awk '$6 ~ /FIN|TIME/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1 Local-Address Foreign-Address State5 coolshell.cn:80 124.205.5.146:18245 TIME_WAIT6 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT29 coolshell.cn:80 116.234.127.77:11502 FIN_WAIT211 coolshell.cn:80 183.60.215.36:36970 TIME_WAIT13 coolshell.cn:80 124.152.181.209:26825 FIN_WAIT115 coolshell.cn:80 183.60.212.163:51082 TIME_WAIT18 coolshell.cn:80 117.136.20.85:50025 FIN_WAIT2
再来看看模式取反的例子:
$ awk '$6 !~ /WAIT/ || NR==1 {print NR,$4,$5,$6}' OFS="\t" netstat.txt1 Local-Address Foreign-Address State2 0.0.0.0:3306 0.0.0.0:* LISTEN3 0.0.0.0:80 0.0.0.0:* LISTEN4 127.0.0.1:9000 0.0.0.0:* LISTEN7 coolshell.cn:80 110.194.134.189:1032 ESTABLISHED8 coolshell.cn:80 123.169.124.111:49809 ESTABLISHED10 coolshell.cn:80 123.169.124.111:49829 ESTABLISHED12 coolshell.cn:80 61.148.242.38:30901 ESTABLISHED14 coolshell.cn:80 110.194.134.189:4796 ESTABLISHED16 coolshell.cn:80 208.115.113.92:50601 LAST_ACK17 coolshell.cn:80 123.169.124.111:49840 ESTABLISHED19 :::22 :::* LISTEN
或是:
awk '!/WAIT/' netstat.txt
折分文件
awk拆分文件很简单,使用重定向就好了。下面这个例子,是按第6例分隔文件,相当的简单(其中的NR!=1表示不处理表头)。
$ awk 'NR!=1{print > $6}' netstat.txt$ lsESTABLISHED FIN_WAIT1 FIN_WAIT2 LAST_ACK LISTEN netstat.txt TIME_WAIT$ cat ESTABLISHEDtcp 0 0 coolshell.cn:80 110.194.134.189:1032 ESTABLISHEDtcp 0 0 coolshell.cn:80 123.169.124.111:49809 ESTABLISHEDtcp 0 0 coolshell.cn:80 123.169.124.111:49829 ESTABLISHEDtcp 0 4166 coolshell.cn:80 61.148.242.38:30901 ESTABLISHEDtcp 0 0 coolshell.cn:80 110.194.134.189:4796 ESTABLISHEDtcp 0 0 coolshell.cn:80 123.169.124.111:49840 ESTABLISHED$ cat FIN_WAIT1tcp 0 1 coolshell.cn:80 124.152.181.209:26825 FIN_WAIT1$ cat FIN_WAIT2tcp 0 0 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT2tcp 0 0 coolshell.cn:80 116.234.127.77:11502 FIN_WAIT2tcp 0 0 coolshell.cn:80 117.136.20.85:50025 FIN_WAIT2$ cat LAST_ACKtcp 0 1 coolshell.cn:80 208.115.113.92:50601 LAST_ACK$ cat LISTENtcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTENtcp 0 0 0.0.0.0:80 0.0.0.0:* LISTENtcp 0 0 127.0.0.1:9000 0.0.0.0:* LISTENtcp 0 0 :::22 :::* LISTEN$ cat TIME_WAITtcp 0 0 coolshell.cn:80 124.205.5.146:18245 TIME_WAITtcp 0 0 coolshell.cn:80 183.60.215.36:36970 TIME_WAITtcp 0 0 coolshell.cn:80 183.60.212.163:51082 TIME_WAIT
你也可以把指定的列输出到文件:
awk 'NR!=1{print $4,$5 > $6}' netstat.txt
再复杂一点:(注意其中的if-else-if语句,可见awk其实是个脚本解释器)
$ awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt";else if($6 ~ /LISTEN/) print > "2.txt";else print > "3.txt" }' netstat.txt$ ls ?.txt1.txt 2.txt 3.txt$ cat 1.txttcp 0 0 coolshell.cn:80 124.205.5.146:18245 TIME_WAITtcp 0 0 coolshell.cn:80 110.194.134.189:1032 ESTABLISHEDtcp 0 0 coolshell.cn:80 123.169.124.111:49809 ESTABLISHEDtcp 0 0 coolshell.cn:80 123.169.124.111:49829 ESTABLISHEDtcp 0 0 coolshell.cn:80 183.60.215.36:36970 TIME_WAITtcp 0 4166 coolshell.cn:80 61.148.242.38:30901 ESTABLISHEDtcp 0 0 coolshell.cn:80 110.194.134.189:4796 ESTABLISHEDtcp 0 0 coolshell.cn:80 183.60.212.163:51082 TIME_WAITtcp 0 0 coolshell.cn:80 123.169.124.111:49840 ESTABLISHED$ cat 2.txttcp 0 0 0.0.0.0:3306 0.0.0.0:* LISTENtcp 0 0 0.0.0.0:80 0.0.0.0:* LISTENtcp 0 0 127.0.0.1:9000 0.0.0.0:* LISTENtcp 0 0 :::22 :::* LISTEN$ cat 3.txttcp 0 0 coolshell.cn:80 61.140.101.185:37538 FIN_WAIT2tcp 0 0 coolshell.cn:80 116.234.127.77:11502 FIN_WAIT2tcp 0 1 coolshell.cn:80 124.152.181.209:26825 FIN_WAIT1tcp 0 1 coolshell.cn:80 208.115.113.92:50601 LAST_ACKtcp 0 0 coolshell.cn:80 117.136.20.85:50025 FIN_WAIT2
统计
下面的命令计算所有的C文件,CPP文件和H文件的文件大小总和。
$ ls -l *.cpp *.c *.h | awk '{sum+=$5} END {print sum}'2511401
我们再来看一个统计各个connection状态的用法:(我们可以看到一些编程的影子了,大家都是程序员我就不解释了。注意其中的数组的用法)
$ awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txtTIME_WAIT, 3FIN_WAIT1, 1ESTABLISHED, 6FIN_WAIT2, 3LAST_ACK, 1LISTEN, 4
再来看看统计每个用户的进程的占了多少内存(注:sum的RSS那一列)
$ ps aux | awk 'NR!=1{a[$1]+=$6;} END { for(i in a) print i ", " a[i]"KB";}'dbus, 540KBmysql, 99928KBwww, 3264924KBroot, 63644KBhchen, 6020KB
脱掉内衣
awk脚本
在上面我们可以看到一个END关键字。END的意思是“处理完所有的行的标识”,即然说到了END就有必要介绍一下BEGIN,这两个关键字意味着执行前和执行后的意思,语法如下:
- BEGIN{ 这里面放的是执行前的语句 }
- END {这里面放的是处理完所有的行后要执行的语句 }
- {这里面放的是处理每一行时要执行的语句}
为了说清楚这个事,我们来看看下面的示例:
假设有这么一个文件(学生成绩表):
$ cat score.txtMarry 2143 78 84 77Jack 2321 66 78 45Tom 2122 48 77 71Mike 2537 87 97 95Bob 2415 40 57 62
我们的awk脚本如下(我没有写有命令行上是因为命令行上不易读,另外也在介绍另一种用法):
$ cat cal.awk#!/bin/awk -f#运行前BEGIN { math = 0 english = 0 computer = 0 printf "NAME NO. MATH ENGLISH COMPUTER TOTAL\n" printf "---------------------------------------------\n"}#运行中{ math+=$3 english+=$4 computer+=$5 printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5}#运行后END { printf "---------------------------------------------\n" printf " TOTAL:%10d %8d %8d \n", math, english, computer printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR}
我们来看一下执行结果:(也可以这样运行 ./cal.awk score.txt)
$ awk -f cal.awk score.txtNAME NO. MATH ENGLISH COMPUTER TOTAL---------------------------------------------Marry 2143 78 84 77 239Jack 2321 66 78 45 189Tom 2122 48 77 71 196Mike 2537 87 97 95 279Bob 2415 40 57 62 159--------------------------------------------- TOTAL: 319 393 350AVERAGE: 63.80 78.60 70.00
环境变量
即然说到了脚本,我们来看看怎么和环境变量交互:(使用-v参数和ENVIRON,使用ENVIRON的环境变量需要export)
$ x=5$ y=10$ export y$ echo $x $y5 10$ awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txtMarry 2143 78 89 87Jack 2321 66 83 55Tom 2122 48 82 81Mike 2537 87 102 105Bob 2415 40 62 72
几个花活
最后,我们再来看几个小例子:
#从file文件中找出长度大于80的行awk 'length>80' file#按连接数查看客户端IPnetstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -nr#打印99乘法表seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'
自己撸吧
关于其中的一些知识点可以参看gawk的手册:
- 内建变量,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din-Variables
- 流控方面,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Statements
- 内建函数,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Built_002din
- 正则表达式,参看:http://www.gnu.org/software/gawk/manual/gawk.html#Regexp
- awk基本用法(vbird)
- sed awk 基本用法
- awk基本用法
- awk基本用法
- awk基本用法
- awk基本用法简介
- awk基本用法
- AWK 常见基本用法
- linux AWK命令基本用法
- awk基本用法及举例
- sed和awk的基本用法
- grep、sed和awk基本用法汇总
- awk基本用法及举例(2)
- linux下sed与awk的基本用法
- LINUX 下 find grep sed awk 的常见基本用法
- linux的常用命令和awk的基本用法
- awk用法
- awk用法
- 输出javabean集合信息
- Hibernate学习09---基于XML配置的一对一单向外键关联
- 类的静态成员函数带来了什么好处,应该在什么时候使用?
- 稀疏表示(step by step)
- Linux系统下查看目录大小
- awk基本用法
- 话说程序猿好悲剧
- 使用HTML5和CSS3创建一个时髦的联系表单
- 虚函数
- How many 0's?
- cocos2d-x如何快速屏蔽触摸
- 基于 Android NDK 的学习之旅-----环境搭建
- 基于bootstrap + velocity的分页实现
- HTTP协议:HTTP请求消息/请求方法、HTTP响应消息/响应状态代码