AWK

来源:互联网 发布:hadoop编程实例 编辑:程序博客网 时间:2024/06/06 19:00
 

一、内置变量表

属性

说明

$0

当前记录(作为单个变量)

$1~$n

当前记录的第n个字段,字段间由FS分隔

FS

输入字段分隔符 默认是空白字符(允许字符串作为分隔符,注意元字符转义,FS只有在它超过一个字符的时候

,才会被视为正则表达式)

NF

当前记录中的字段个数,就是有多少列

NR

已经读出的记录数,就是行号,从1开始,如果多个文件的时候会比FNR

RS

输入的记录他隔符默 认为换行符

OFS

输出字段分隔符 默认也是空格

ORS

输出的记录分隔符,默认为换行符,如果要改变必须字段上有操作$1=$1

ARGC

命令行参数个数,输入文件的个数+1

ARGV

命令行参数数组,ARGV[0]程序名,ARGV[1...]输入文件名

FILENAME

当前输入文件的名字

IGNORECASE

如果为真,则进行忽略大小写的匹配

ARGIND

当前被处理文件的ARGV标志符,即文件序号,某些awk没有该内置变量,gawk的扩展

CONVFMT

数字转换格式 %.6g

ENVIRON

UNIX环境变量

ERRNO

UNIX系统错误消息

FIELDWIDTHS

输入字段宽度的空白分隔字符串

FNR

当前文件的记录数

OFMT

数字的输出格式 %.6g

RSTART

被匹配函数匹配的字符串首

RLENGTH

被匹配函数匹配的字符串长度

SUBSEP

\034

 注意:

FILENAME,$0-$N,NF不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量。但是当在BEGIN中读取了另外一个文件的时候可以使用$0-$N,NF,但是FILENAMENR依旧不能使用,详细见:

http://blog.chinaunix.net/uid-25324849-id-3076850.html

awk 'BEGIN{

OFMT="%.3f";

devf="/proc/net/dev";

while(("cat "devf) | getline)

{

         print $0,FILENAME,NR,NF

         #$0 ~ /:/ 匹配到“:”的行 !~为不匹配

         #$10为发送的字节数 ($10+0)转换为整数

    if($0 ~ /:/ && ($10+0) > 0)

    {

    #以“:”为分割符,存储到tarr数组里面

    #$1 lo:

    #split($1,tarr,":");

    #tarr[1]lotarr[1...]为空

    #print tarr[1],tarr[2],tarr[3]

        #net[lo]=$10+tarr[2];发送的数据+0

        net[$1]=$10+$2;

        print $1,$10+$2;

    }

}

}

这里只测试了print $0,FILENAME,NR,NF,如果要使用其他的awk内置变量请自己测试。

 

2、实例

1、常用操作

[chengmo@localhost ~]$ awk '/^root/{print $0}' /etc/passwd
root:x:0:0:root:/root:/bin/bash

/^root/ 为选择表达式,$0代表是逐行

 

 

2、设置字段分隔符号(FS使用方法)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}/^root/{print $1,$NF}' /etc/passwd
root /bin/bash

 

FS为字段分隔符,可以自己设置,默认是空格,因为passwd里面是”:”分隔,所以需要修改默认分隔符。NF是字段总数,$0代表当前行记录,$1-$n是当前行,各个字段对应值。

3、记录条数(NR,FNR使用方法)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":"}{print NR,$1,$NF}' /etc/passwd
1 root /bin/bash
2 bin /sbin/nologin
3 daemon /sbin/nologin
4 adm /sbin/nologin
5 lp /sbin/nologin
6 sync /bin/sync
7 shutdown /sbin/shutdown
……

NR得到当前记录所在行

4、设置输出字段分隔符(OFS使用方法)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";OFS="^^"}/^root/{print FNR,$1,$NF}' /etc/passwd
1^^root^^/bin/bash

 

OFS设置默认字段分隔符

5、设置输出行记录分隔符(ORS使用方法)

 

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";ORS="^^"}{print FNR,$1,$NF}' /etc/passwd      
1 root /bin/bash^^2 bin /sbin/nologin^^3 daemon /sbin/nologin^^4 adm /sbin/nologin^^5 lp /sbin/nologin

 

从上面看,ORS默认是换行符,这里修改为:”^^”,所有行之间用”^^”分隔了。

6、输入参数获取(ARGC ,ARGV使用)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print "ARGC="ARGC;for(k in ARGV) {print k"="ARGV[k]; }}' /etc/passwd
ARGC=2
0=awk
1=/etc/passwd

 

ARGC得到所有输入参数个数,ARGV获得输入参数内容,是一个数组。

 

7、获得传入的文件名(FILENAME使用)

[chengmo@localhost ~]$ awk 'BEGIN{FS=":";print FILENAME}{print FILENAME}' /etc/passwd

/etc/passwd

FILENAME,$0-$N,NF不能使用在BEGIN中,BEGIN中不能获得任何与文件记录操作的变量,例外情况见内置变量表后的注意。

 

8、获得linux环境变量(ENVIRON使用)

[chengmo@localhost ~]$ awk 'BEGIN{print ENVIRON["PATH"];}' /etc/passwd   
/usr/lib/qt-3.3/bin:/usr/kerberos/bin:/usr/lib/ccache:/usr/lib/icecc/bin:/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/sbin:/usr/java/jdk1.5.0_17/bin:/usr/java/jdk1.5.0_17/jre/bin:/usr/local/mysql/bin:/home/web97/bin

ENVIRON是子典型数组,可以通过对应键值获得它的值。

 

9、输出数据格式设置:(OFMT使用)

[chengmo@localhost ~]$ awk 'BEGIN{OFMT="%.3f";print 2/3,123.11111111;}' /etc/passwd  
0.667 123.111

 

OFMT默认输出格式是:%.6g保留六位小数,这里修改OFMT会修改默认数据输出格式。

 

10、按宽度指定分隔符(FIELDWIDTHS使用)

[chengmo@localhost ~]$ echo 20100117054932 | awk 'BEGIN{FIELDWIDTHS="4 2 2 2 2 3"}{print $1"-"$2"-"$3,$4":"$5":"$6}'
2010-01-17 05:49:32

 

FIELDWIDTHS其格式为空格分隔的一串数字,用以对记录进行域的分隔,FIELDWIDTHS="4 2 2 2 2 2"就表示$1宽度是4$22$32  .... 。这个时候会忽略:FS分隔符。

 

11RSTART RLENGTH使用

[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
11 11 4
[chengmo@localhost ~]$ awk 'BEGIN{start=match("this is a test",/^[a-z]+$/); print start, RSTART, RLENGTH }'
0 0 –1

 

RSTART 被匹配正则表达式首位置,RLENGTH 匹配字符长度,没有找到为-1.

 

以上是:awk的一些内置变量使用,希望有什么问题可以与我交流。

if ($ != jQuery) { $ = jQuery.noConflict(); } var isLogined = false; var cb_blogId = 71819; var cb_entryId = 1844818; var cb_blogApp = "chengmo"; var cb_blogUserGuid = "eee985f0-5b74-df11-ba8f-001cf0cd104b"; var cb_entryCreatedDate = '2010/10/6 21:46:00'; 













这里提到awk,相信写shell的朋友都会接触到。AWK 是一种用于处理文本的编程语言工具。AWK 提供了极其强大的功能:

1.    可以进行正则表达式的匹配

2.    样式装入

3.    流控制

4.    数学运算符

5.    进程控制语句

6.    内置的变量和函数

可以把awk看作一门完全的程序设计语言,它处理文本的速度是快得惊人的。现在很多基于shell 日志分析工具都可以用它完成。设计简单,速度表现很好。 涉及到以上六个方面内容,我会在以后文章中加以介绍。 这次主要说下,怎么样把外部变量传入到awk执行语句中。

 

一、基础:

awk [ -F re] [parameter...] ['pattern {action}' ] [-f progfile][in_file...]

命令选项

-F fs or --field-separator fs

指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。

-v var=value or --asign var=value

赋值一个用户定义变量。

-f scripfile or --file scriptfile

从脚本文件中读取awk命令。

-mf nnn and -mr nnn

对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。

-W compact or --compat, -W traditional or --traditional

在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。

-W copyleft or --copyleft, -W copyright or --copyright

打印简短的版权信息。

-W help or --help, -W usage or --usage

打印全部awk选项和每个选项的简短说明。

-W lint or --lint

打印不能向传统unix平台移植的结构的警告。

-W lint-old or --lint-old

打印关于不能向传统unix平台移植的结构的警告。

-W posix

打开兼容模式。但有以下限制,不识别:\x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。

-W re-interval or --re-inerval

允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。

-W source program-text or --source program-text

使用program-text作为源代码,可与-f命令混用。

-W version or --version

打印bug报告信息的版本。

 

awk一般语法如上面所说。

如:

[chengmo@localhost ~]$ echo 'awk code' | awk 'BEGIN{print "start\n============="}{print $0}END{print "=========\nend"}'
start
=============
awk code
=========
end

 

在 awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作。任何在BEGIN之后列出的操作(在{}内)将在awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用BEGIN来显示变量和预置(初始化)变量,使用END来输出最终结果。

 

二、获得外部变量方法

1、获得普通外部变量

[chengmo@localhost ~]$ test='awk code'                           
[chengmo@localhost ~]$ echo | awk  '{print test}' test="$test"
awk code
[chengmo@localhost ~]$ echo | awk  test="$test" '{print test}'
awk: cmd. line:1: fatal: cannot open file `{print test}' for reading (No such file or directory)

 

格式如:awk ‘{action}’ 变量名=变量值  ,这样传入变量,可以在action中获得值。注意:变量名与值放到’{action}’后面。

[chengmo@localhost ~]$ echo | awk  'BEGIN{print test}' test="$test"         

 

这种变量在:BEGINaction不能获得。

2.BEGIN程序块中变量

[chengmo@localhost ~]$ test='awk code'                                
[chengmo@localhost ~]$ echo | awk -v test="$test" 'BEGIN{print test}'
awk code
[chengmo@localhost ~]$ echo | awk -v test="$test" '{print test}'    
awk code

 

格式如:awk –v变量名=变量值 [–v变量2=2 …] 'BEGIN{action}’ 注意:用-v传入变量可以在3中类型的action中都可以获得到,但顺序在  action前面。

  

3.获得环境变量

[chengmo@localhost ~]$ awk  'BEGIN{for (i in ENVIRON) {print i"="ENVIRON[i];}}'
AWKPATH=.:/usr/share/awk
SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass
SELINUX_LEVEL_REQUESTED=
SELINUX_ROLE_REQUESTED=
LANG=en_US.UTF-8
.......

 

只需要调用:awk内置变量 ENVIRON,就可以直接获得环境变量。它是一个字典数组。环境变量名就是它的键值。
0 0
原创粉丝点击