awk工具

来源:互联网 发布:适合孕妇的软件 编辑:程序博客网 时间:2024/06/11 12:05

一、什么是awk
awk也是文本处理工具,与sed相比,awk不仅能以行为单位处理文件,还可以以列为单位处理文件。awk的缺省行分隔符是”\n”,缺省列分隔符是空格或tab,但是行分隔符和列分隔符都是可以自定义。awk还是一门很复杂的脚本语言,具有像C语言一样的分支和循环结构。

二、awk命令格式
awk option ‘编辑命令’ file1 file2 …
awk option -f 编辑脚本 file1 file2 …
awk处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入。编辑命令既可以直接当命令行参数传入,也可以用-f参数指定一个脚本文件。

option:
-F:指定列分隔符,默认的列分隔符是空格或tab,可以用-F选项自定义列分隔符。我们将以列分隔符分开的列称为域。

编辑命令:
/pattern/{actions}或者condition/{actions}:
pattern:是一个正则表达式,actions是一系列的操作。awk程序以行为单位处理文件,如果某一行匹配pattern的话,就执行actions。
condition: 满足condition条件,则执行actions。如果一条awk命令只有actions部分,则actions会处理文件中的所有行。
action: 常见的action就是print或者printf。其中printf是类C风格的。而print输出的每个变量之间以逗号隔开,如果是字符串的话要以双引号括起来。

自动变量:12表示第二列内容,类似于shell脚本的位置参数,$0表示整行内容。
例1:打印每一列的内容
这里写图片描述

例2:自定义列分隔符,并输出每一列
这里写图片描述
解释:可以看到上面的文件中列分隔符是”:”,而awk默认的列分隔符是空格或tab,当我们不指定分隔符时,他会将以空格作为分隔,所以会将这一行内容输出(因为这一行没有空格,所以整行内容就是一个域)。当我们指定分隔符之后,可以看到,能够按照我们的想法输出。

例3:除了自动变量外,还有一个NF变量,默认输出最后一列。
这里写图片描述

三、BEGIN和END
awk处理文件可以分为三个阶段:处理之前、处理之中、处理之后。BEGIN是处理之前执行的动作,END是处理之后执行的动作。
使用格式:BEGIN{action},END{action}
例1:在输出文件之前输出start,处理完文件之后在输出end.
这里写图片描述

awk也是一门弱类型语言,所以就可以使用变量,它的变量使用方法像C语言一样,但是不需要定义。
例2:统计文件中的行数
这里写图片描述
解释:用一个变量统计行数,在处理完文件之后再输出。因为awk也是一门弱类型语言,所以它的变量可以随处定义,并且不需要类型。

例3:统计某个目录下所有文件的size总和
这里写图片描述

四、awk常见内置变量
FILENAME:awk浏览的文件名。
FNR:浏览文件的记录数,也就是行数。awk是以行为单位处理的,所以每行内容也称所一个记录。
NF:浏览记录的域的个数。可以用它来输出最后一个域。
FS:设置输入域分隔符,等价于命令行-F选项。
OFS:输出域分隔符
例:
这里写图片描述

五、awk脚本
awk不仅是一个工具,还是一门脚本语言,它支持和C风格一样的分支和循环结构。

问题:现在有一个学生成绩表如图,总共有三列,姓名、科目、成绩。
这里写图片描述

Q1:统计小于60分,60到74分,75到100分这三个阶段的人数。
这里写图片描述
结果:
这里写图片描述

Q2:统计每个学科的成绩总和
这里写图片描述
结果:
这里写图片描述

Q3:每个学生的最高成绩
这里写图片描述
结果:
这里写图片描述

例2:用awk求1到100的和
awk中的循环语句同样也借鉴与C语言,支持while,do/while,for,break,continue。这些关键字的含义与C语言中一样。
这里写图片描述

六、awk正则运算符”~”:
例:求张三的总成绩
这里写图片描述

4 2
原创粉丝点击