awk学习记录

来源:互联网 发布:商务时空软件通科云盟 编辑:程序博客网 时间:2024/06/09 22:02

在文件中查找内容时,一般使用grep命令,感觉它的功能足够强大了,见我另一篇博文 grep 搜索目录中的文件 

但近期在处理一些有格式的文件(每行用“\t”分隔成多列,每列有对应的含义,类似表格)时,以下问题用grep不太好解决了:

1.打印出第二列等于“XXX”的行;

2.数量统计类,如第二列等于“xxx”的数据有多少行;



1.打印出第二列等于“XXX”的行

这类问题,使用grep也可以解决,如在当前目录下所有文件中搜索“XXX”

grep -Frn "XXX"  ./*
这其实是搜索行里包含“XXX”的数据,若其他字段(列)也含有这个关键词,则搜索结果不准确了。

若用awk则很方便,如下:

awk -F“\t” '$2=="XXX"{print $0}' ./*

这个命令的意思是:把当前目录下的文件按行依次读取,用"\t”分隔开若干个字段,若第二个字段值等于“XXX”,则把这行数据打印出来。下面是详细解释

-F"\t"  是设置行的分隔符为“\t”, -F 可以设置一个字符或多个字符为分隔符。但多个字符时有两种写发,其意义完全不一样

        -F“:\t”  是以“:\t”这个字符串为整体作为分隔符,会吧字符串“123:\t345”分割成“123” 和 “345”两个字段

        -F“[:\t]”  用中括号括起来意思是用“:”或“\t”做分隔符,会把字符串“123:\t345”分割成“123”,“”和“345”三个字段,会把“12:34\t56”分割成“12”、“34”和“56”

若没有-F参数,默认是按空格或“\t”分割的。虽然大部分时候-F后面的参数不加引号效果也一样,但在一些特殊情况下还是有问题的,所以最好养成加引号的习惯


‘$2==""XXX’{print $0}'   这个awk脚本代码部分,一般用单引号括起来,因为里面的字符串需要用双引号括起来。

         $2 是对应分割后的第二个部分,$0比较特殊是对应整个一行字符串。其余大于0的数字,都是一一对应被分割后的字符串 

         在awk脚本是有 pattern {action} (模式{操作})组成的,模式有以下种类:

                       /正则表达式/:使用通配符的扩展集,对$0进行匹配。 如 找含有数字的行 : awk '/\d+/'{print $0} ./* 

                      关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如 $2>%1选择第二个字段比第一个字段长的行。  

                      模式匹配表达式:用运算符~(匹配)和~!(不匹配)。 

                      模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。  

                      BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。 

                      END:让用户在最后一条输入记录被读取之后发生的动作。


多条件判断

awk -F"\t" '$1=="a"&&$2=="1"'{print $0} ./*
更复杂的逻辑判断可以使用括号
awk  '($2=="1"&&$3=="a")||$4<100{print NR,$0}' ./test.txt

使用变量,用于统计数据

awk -F"\t" 'BEGIN{n1=0;n2=0}{$4=="1"?n1++:n2++}END{print n1+n2 " , " n1/(n1+n2) " , "n1 " , " n2}' ./*

awk的变量可以不初始化直接使用,并且可以使用字符串做key.以下命令是列出原始数据中,地域id和名称的对应关系

$ awk -F"\t" 'BEGIN{}{if($13){arr["a_"$13]=$14;if($15){arr["a_"$13"_"$15]=$14"_"$16;if($17){arr["a_"$13"_"$15"_"$17]=$14"_"$16"_"$18}}}}END{for(k in arr){print k"\t"arr[k]}}'  ./*

原始数据格式$13~$18

1中国15山东5东营
输出结果
a_1_7_7中国_吉林_松原a_1_7_8中国_吉林_白城a_169_60泰国_phangngaa_1_7_9中国_吉林_延边a_169_61泰国_phuketa_169_62泰国_krabia_169_21泰国_khon kaen



原创粉丝点击