AWK

来源:互联网 发布:淘宝好看的童装店铺 编辑:程序博客网 时间:2024/06/07 05:07
  1. awk简介
    awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出(屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的,在linux系统中已把awk链接到gawk,所以下面全部以awk进行介绍。
  2. awk命令格式和选项
    2.1. awk的语法有两种形式
    awk [options] ‘script’ var=value file(s)
    awk [options] -f scriptfile var=value file(s)
    2.2. 命令选项
    -F fs or –field-separator fs
    指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
    -v var=value or –asign var=value
    赋值一个用户定义变量。
    -f scripfile or –file scriptfile
    从脚本文件中读取awk命令。
    -mf nnn and -mr nnn
    对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
    -W compact or –compat, -W traditional or –traditional
    在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
    -W copyleft or –copyleft, -W copyright or –copyright
    打印简短的版权信息。
    -W help or –help, -W usage or –usage
    打印全部awk选项和每个选项的简短说明。
    -W lint or –lint
    打印不能向传统unix平台移植的结构的警告。
    -W lint-old or –lint-old
    打印关于不能向传统unix平台移植的结构的警告。
    -W posix
    打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符=不能代替^和^=;fflush无效。
    -W re-interval or –re-inerval
    允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
    -W source program-text or –source program-text
    使用program-text作为源代码,可与-f命令混用。
    -W version or –version
    打印bug报告信息的版本。
  3. 模式和操作
    awk脚本是由模式和操作组成的:
    pattern {action} 如awk/root/test awk ‘3<100testactionactionRS3.1.//使2>%1选择第二个字段比第一个字段长的行。
    模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
    模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
    BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
    END:让用户在最后一条输入记录被读取之后发生的动作。
    3.2. 操作
    操作由一人或多个命令、函数、表达式组成,之间由换行符或分号隔开,并位于大括号内。主要有四部份:
    变量或数组赋值
    输出命令
    内置函数
    控制流命令
  4. awk的环境变量
    Table 1. awk的环境变量

变量
描述
nnFS0
完整的输入记录。
ARGC
命令行参数的数目。
ARGIND
命令行中当前文件的位置(从0开始算)。
ARGV
包含命令行参数的数组。
CONVFMT
数字转换格式(默认值为%.6g)
ENVIRON
环境变量关联数组。
ERRNO
最后一个系统错误的描述。
FIELDWIDTHS
字段宽度列表(用空格键分隔)。
FILENAME
当前文件名。
FNR
同NR,但相对于当前文件。
FS
字段分隔符(默认是任何空格)。
IGNORECASE
如果为真,则进行忽略大小写的匹配。
NF
当前记录中的字段数。
NR
当前记录数。
OFMT
数字的输出格式(默认值是%.6g)。
OFS
输出字段分隔符(默认值是一个空格)。
ORS
输出记录分隔符(默认值是一个换行符)。
RLENGTH
由match函数所匹配的字符串的长度。
RS
记录分隔符(默认是一个换行符)。
RSTART
由match函数所匹配的字符串的第一个位置。
SUBSEP
数组下标分隔符(默认值是\034)。

  1. awk运算符
    Table 2. 运算符

运算符
描述
= += -= = /= %= ^= *=
赋值
?:
C条件表达式
||
逻辑或
&&
逻辑与
~ ~!
匹配正则表达式和不匹配正则表达式
< <= > >= != ==
关系运算符
空格
连接
+ -
加,减
* / &
乘,除与求余
+ - !
一元加,减和逻辑非
^ *
求幂
++ –
增加或减少,作为前缀或后缀
$
字段引用
in
数组成员

  1. 记录和域
    6.1. 记录
    awk把每一个以换行符结束的行称为一个记录。
    记录分隔符:默认的输入和输出的分隔符都是回车,保存在内建变量ORS和RS中。
    0 awk ‘{print 0}’ test将输出test文件中的所有记录。  
    变量NR:一个计数器,每处理完一条记录,NR的值就增加1。如
    awk '{print NR,0}’ test将输出test文件中所有记录,并在记录前显示记录号。  
    6.2. 域  
    记录中每个单词称做“域”,默认情况下以空格或tab分隔。awk可跟踪域的个数,并在内建变量NF中保存该值。如
    awk '{print 1,3}’ test将打印test文件中第一和第三个以空格分开的列(域)。
    6.3. 域分隔符
    内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如awkF:print$1,$5test使awk -F'[:\t]' '{print 1,3}’ test,表示以空格、冒号和tab作为分隔符。
    输出域的分隔符默认是一个空格,保存在OFS中。如awkF:print$1,$5test1和$5间的逗号就是OFS的值。
  2. gawk专用正则表达式元字符
    一般通用的元字符集就不讲了,可参考我的Sed和Grep学习笔记。以下几个是gawk专用的,不适合unix版本的awk。
    \Y 匹配一个单词开头或者末尾的空字符串。
    \B 匹配单词内的空字符串。
    \< 匹配一个单词的开头的空字符串,锚定开始。
    > 匹配一个单词的末尾的空字符串,锚定末尾。
    \w 匹配一个字母数字组成的单词。
    \W 匹配一个非字母数字组成的单词。
    \‘ 匹配字符串开头的一个空字符串。
    \’ 匹配字符串末尾的一个空字符串。
  3. POSIX字符集
    可参考我的Grep学习笔记
  4. 匹配操作符(~)
    用来在记录或者域内匹配正则表达式。如awk1 ~/^root/’ test将显示test文件第一列中以root开头的行。
  5. 比较表达式
    conditional expression1 ? expression2: expression3,例如:awkmax=$1>$3?$1:$3:printmaxtest1就赋值给max,否则3max awk '1+2 < 100’ test。如果第一和第二个域相加大于100,则打印这些行。
    awk1 > 5 && $2 < 10’ test,如果第一个域大于5,并且第二个域小于10,则打印这些行。
  6. 范围模板
    范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。如$ awk ‘/root/,/mysql/’ test将显示root第一次出现到mysql第一次出现之间的所有行。
  7. 一个验证passwd文件有效性的例子
    cat /etc/passwd | awk -F: ‘\  
    NF != 7{\  
    printf(“line %d,does not have 7 fields:%s\n”,NR,$0)}\
    1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and numeric user id:%d: %s\n,NR,0)}\2 == "*" {printf("line %d, no password: %s\n",NR,$0)}’
    cat把结果输出给awk,awk把域之间的分隔符设为冒号。
    如果域的数量(NF)不等于7,就执行下面的程序。
    printf打印字符串”line ?? does not have 7 fields”,并显示该条记录。
    如果第一个域没有包含任何字母和数字,printf打印“no alpha and numeric user id” ,并显示记录数和记录。
    如果第二个域是一个星号,就打印字符串“no passwd”,紧跟着显示记录数和记录本身。
  8. 几个实例
    awkprint$3test() awk ‘/^(no|so)/’ test—–打印所有以模式no或so开头的行。
    awk/[ns]/print$1testns awk '1 /[09][09]/(print 1}’ test—–如果第一个域以两个数字结束就打印这个记录。 awk '1==100||2 < 50’ test—–如果第一个或等于100或者第二个域小于50,则打印该行。
    awk1 != 10’ test—–如果第一个域不等于10就打印该行。
    awk/test/print$1+10testtest10 awk '{print (1>5?"ok"1: "error"1)}’ test—–如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。 awk ‘/^root/,/^mysql/’ test—-打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。
  9. awk编程
    14.1. 变量
    在awk中,变量不需要定义就可以直接使用,变量类型可以是数字或字符串。
    赋值格式:Variable = expression,如awk1 ~/test/{count = 2+3; print count}’ test,上式的作用是,awk先扫描第一个域,一旦test匹配,就把第二个域的值加上第三个域的值,并把结果赋值给变量count,最后打印出来。
    awk可以在命令行中给变量赋值,然后将这个变量传输给awk脚本。如awkF:fawkscriptmonth=4year=2004testmonthyear42004awk使testBEGIN使 awk '{2=100+1; print }' test,上式表示,如果第二个域不存在,awk将计算表达式100加12,如果第二个域存在,则用表达式的值覆盖2 awk '1==root$1=test;printtestroottest使 awk -F: '{IGNORECASE=1; 1=="MARY"printNR,$1,$2,$NFtestIGNORECASE1mary14.2.BEGINBEGINawkOFS,RSFS awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print 1,2,3} test。上式表示,在处理输入文件以前,域分隔符(FS)被设为冒号,输出文件分隔符(OFS)被设置为制表符,输出记录分隔符(ORS)被设置为两个换行符。 awk ‘BEGIN{print “TITLE TEST”}只打印标题。
    14.3. END模块
    END不匹配任何的输入文件,但是执行动作块中的所有动作,它在整个输入文件处理完成后被执行。如awkENDprintThenumberofrecordsisNRtest14.4.awk使shell awk '1=100print$1>outputfiletest100outputfile>>getlinegetlineNF,NRFNRgetline101 awk ‘BEGIN{ “date” | getline d; print d}’ test。执行linux的date命令,并通过管道输出给getline,然后再把输出赋值给自定义变量d,并打印它。
    awkBEGINdate|getlined;split(d,mon);printmon[2]testshelldategetlinegetlinedsplitdmonmon awk ‘BEGIN{while( “ls” | getline) print}’,命令ls的输出传递给geline作为输入,循环使getline从ls的输出中读取一行,并把它打印到屏幕。这里没有输入文件,因为BEGIN块在打开输入文件前执行,所以可以忽略输入文件。
    awkBEGINprintf"Whatisyourname?";getlinename<"/dev/tty"1 ~name {print “Found” name on line “, NR “.”} END{print “See you,” name “.”} test。在屏幕上打印”What is your name?”,并等待用户应答。当一行输入完毕后,getline函数从终端接收该行输入,并把它储存在自定义变量name中。如果第一个域匹配变量name的值,print函数就被执行,END块打印See you和name的值。
    awkBEGINwhile(getline</etc/passwd>0)lc++;printlcawk/etc/passwdlclcgetline101while(getline</etc/passwd)1awkclose() awk '{print 1,2 | “sort” }’ test END {close(“sort”)}。awd把print语句的输出通过管道作为linux命令sort的输入,END块执行关闭管道操作。
    system函数可以在awk中执行linux的命令。如:awk ‘BEGIN{system(“clear”)’。  
    fflush函数用以刷新输出缓冲区,如果没有参数,就刷新标准输出的缓冲区,如果以空字符串为参数,如fflush(“”),则刷新所有文件和管道的输出缓冲区。  
    14.5. 条件语句  
    awk中的条件语句是从C语言中借鉴过来的,可控制程序的流程。  
    14.5.1. if语句  
    格式:  
        {if (expression){  
                   statement; statement; …  
                     }  
        }
    awk '{if (1<2) print 2 “too high”}’ test。如果第一个域小于第二个域则打印。 awk '{if (1<2) {count++; print “ok”}}’ test.如果第一个域小于第二个域,则count加一,并打印ok。
    14.5.2. if/else语句,用于双重判断。
    格式:
    {if (expression){
    statement; statement; …
    }
    else{
    statement; statement; …
    }
    }
    awkif($1>100)print$1"bad";elseprint"ok"test1大于100则打印1bad,ok awk '{if (1>100)count++;print$1elsecount;print$2test1大于100,则count加一,并打印1count1。
    14.5.3. if/else else if语句,用于多重判断。
    格式:
    {if (expression){
    statement; statement; …
    }
    else if (expression){
    statement; statement; …
    }
    else if (expression){
    statement; statement; …
    }
    else {
    statement; statement; …
    }
    }
    14.6. 循环
    awk有三种循环:while循环;for循环;special for循环。
    awki=1;while(i<=NF)printNF,$i;i++test1iNF(),i1iNF. awk '{for (i = 1; i<NF; i++) print NF,i}’ test。作用同上。  
    breadkcontinue语句。break用于在满足条件的情况下跳出循环;continue用于在满足条件的情况下忽略后面的语句,直接返回循环的顶端。如:  
    {for ( x=3; x<=NF; x++)  
            if (
    x<0){print “Bottomed out!”; break}}
    {for ( x=3; x<=NF; x++)
    if ($x==0){print “Get next item”; continue}}

next语句从输入文件中读取一行,然后从头开始执行awk脚本。如:
{if ($1 ~/test/){next}
else {print}
}

exit语句用于结束awk程序,但不会略过END块。退出状态为0代表成功,非零值表示出错。
14.7. 数组
awk中的数组的下标可以是数字和字母,称为关联数组。
14.7.1. 下标与关联数组
用变量作为数组下标。如:awk {name[x++]=2};END{for(i=0;i

0 0
原创粉丝点击