awk学习记录
来源:互联网 发布:商务时空软件通科云盟 编辑:程序博客网 时间:2024/06/09 22:02
在文件中查找内容时,一般使用grep命令,感觉它的功能足够强大了,见我另一篇博文 grep 搜索目录中的文件
但近期在处理一些有格式的文件(每行用“\t”分隔成多列,每列有对应的含义,类似表格)时,以下问题用grep不太好解决了:
1.打印出第二列等于“XXX”的行;
2.数量统计类,如第二列等于“xxx”的数据有多少行;
1.打印出第二列等于“XXX”的行
这类问题,使用grep也可以解决,如在当前目录下所有文件中搜索“XXX”
grep -Frn "XXX" ./*这其实是搜索行里包含“XXX”的数据,若其他字段(列)也含有这个关键词,则搜索结果不准确了。
若用awk则很方便,如下:
awk -F“\t” '$2=="XXX"{print $0}' ./*
这个命令的意思是:把当前目录下的文件按行依次读取,用"\t”分隔开若干个字段,若第二个字段值等于“XXX”,则把这行数据打印出来。下面是详细解释
-F"\t" 是设置行的分隔符为“\t”, -F 可以设置一个字符或多个字符为分隔符。但多个字符时有两种写发,其意义完全不一样-F“:\t” 是以“:\t”这个字符串为整体作为分隔符,会吧字符串“123:\t345”分割成“123” 和 “345”两个字段
-F“[:\t]” 用中括号括起来意思是用“:”或“\t”做分隔符,会把字符串“123:\t345”分割成“123”,“”和“345”三个字段,会把“12:34\t56”分割成“12”、“34”和“56”
若没有-F参数,默认是按空格或“\t”分割的。虽然大部分时候-F后面的参数不加引号效果也一样,但在一些特殊情况下还是有问题的,所以最好养成加引号的习惯
‘$2==""XXX’{print $0}' 这个awk脚本代码部分,一般用单引号括起来,因为里面的字符串需要用双引号括起来。
$2 是对应分割后的第二个部分,$0比较特殊是对应整个一行字符串。其余大于0的数字,都是一一对应被分割后的字符串
在awk脚本是有 pattern {action} (模式{操作})组成的,模式有以下种类:
/正则表达式/:使用通配符的扩展集,对$0进行匹配。 如 找含有数字的行 : awk '/\d+/'{print $0} ./*
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,如 $2>%1选择第二个字段比第一个字段长的行。
模式匹配表达式:用运算符~(匹配)和~!(不匹配)。
模式,模式:指定一个行的范围。该语法不能包括BEGIN和END模式。
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
END:让用户在最后一条输入记录被读取之后发生的动作。
多条件判断
awk -F"\t" '$1=="a"&&$2=="1"'{print $0} ./*更复杂的逻辑判断可以使用括号
awk '($2=="1"&&$3=="a")||$4<100{print NR,$0}' ./test.txt
使用变量,用于统计数据
awk -F"\t" 'BEGIN{n1=0;n2=0}{$4=="1"?n1++:n2++}END{print n1+n2 " , " n1/(n1+n2) " , "n1 " , " n2}' ./*
awk的变量可以不初始化直接使用,并且可以使用字符串做key.以下命令是列出原始数据中,地域id和名称的对应关系
$ awk -F"\t" 'BEGIN{}{if($13){arr["a_"$13]=$14;if($15){arr["a_"$13"_"$15]=$14"_"$16;if($17){arr["a_"$13"_"$15"_"$17]=$14"_"$16"_"$18}}}}END{for(k in arr){print k"\t"arr[k]}}' ./*
原始数据格式$13~$18
1中国15山东5东营输出结果
a_1_7_7中国_吉林_松原a_1_7_8中国_吉林_白城a_169_60泰国_phangngaa_1_7_9中国_吉林_延边a_169_61泰国_phuketa_169_62泰国_krabia_169_21泰国_khon kaen
- awk 学习记录
- awk学习记录
- awk学习记录
- awk 学习记录1
- awk实例操作学习记录
- awk sed学习笔记 记录
- awk、sed和cut 学习记录
- awk记录
- awk记录
- 【awk】awk逆序打印记录
- Awk学习
- awk学习
- awk学习
- awk学习
- AWK学习
- awk 学习
- awk 学习
- awk学习
- 去掉快捷箭头脚本
- 14周:虚函数练习
- /usr/bin/ld: cannot find -l* 错误的解决方法
- Web开发者不容错过的20段CSS代码
- 使用git进行管理
- awk学习记录
- Oracle 几个简单的日期函数
- Android学习笔记-常用的一些源码,防止忘记了。。。
- Android 学习笔记 Service 启动
- cocos2dx返回Android游戏黑屏解决办法
- 详解STM32的PWM输出及频率和脉宽(占空比)的计算——寄存器配置六步曲!
- ASP.NET实现页面间值传递的几种方法介绍
- java web 监听器详解
- C++内存池的实现实例