awk sed grep 用法小结

来源：互联网发布：jquery.cookie.js用法编辑：程序博客网时间：2024/06/05 17:02

常用的awk、grep和sed命令使用
Awk
1、基本操作
1.1、awk -F '|' '{print $0}' tf_mc20100104113250_8735.txt
4007|101|4|0|0|0|0||1|20000101000000|0|
awk -F '|' '{print $1"-",$2"-",$3"-"}' tf_mc20100104113250_8735.txt
4007- 101- 4-

1.2、加头和尾的文件
awk 'BEGIN {print "Name\n---------"} {print $1} END {"end-of-report"}' nasacai.unl

2、条件操作符
2.1、匹配
awk -F '|' '{if ($4~/0/) print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|0|
awk -F '|' '{if ($4~/0/) print $1}' nasacai.unl
4007

2.2、精确匹配
awk -F '|' '{if ($1 = 4007) print $0}' nasacai.unl
4007 101 4 0 0 0 0 1 20000101000000 0

2.3、不匹配
awk -F '|' '{if ($4 !~ /00/) print $1}' nasacai.unl

2.4、精确不匹配
awk -F '|' '$1 != "4001" {print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|0|

2.5、大于
awk -F '|' '{if ($3 > $4) print $3"\n",$4"\n" "$3 is better than $4"}' nasacai.unl
4
0
$3 is better than $4

2.6、任意字符
抽取名字，其记录第一域的第四个字符是a，使用句点.。表达式/^...a/意为行首前三个字符任意，第四个是a，尖角符号代表行首。
$ awk '$1 ~/^...a/' grade.txt

2.7、或关系操作符
为抽取级别为yellow或brown的记录，使用竖线符|。意为匹配｜两边模式之一。注意，使用竖线符时，语句必须用圆括号括起来。
$ awk '$0~/(Yellow|Brown)/' grade.txt

2.8、AND操作符
awk -F '|' '{if ($1 == 4007 && $2 == 101) print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|0|

2.9、OR操作符
awk -F '|' '{if ($1 == 4007 || $2 == 1) print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|0|

3、awk的内置变量
最常用的一些变量
--------------------------------------------------------
ARGC   命令行参数个数
ARGV   命令行参数排列
ENVIRON  支持队列中系统环境变量的使用
FILENAME  awk浏览的文件名
FNR   浏览文件的记录数
FS   设置输入域分隔符，等价于命令行-F选项
NF   浏览记录的域个数
NR   已读的记录数
OFS   输出域分隔符
ORS   输出记录分隔符
RS   控制记录分隔符
--------------------------------------------------------
3.1、NR （代表行数的标号）
awk '{print NR, $0} end {print filename}' nasacai.unl
1 4007|101|4|0|0|0|0||1|20000101000000|0|
2 4007|101|4|0|0|0|0||1|20000101000000|1|
awk -F'|' '{if (NR > 0 && $11~/1/) print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|1|
awk -F '|' '{if (NR = 2 && $11 ~/1/) print $0}' nasacai.unl
4007|101|4|0|0|0|0||1|20000101000000|1|
3.2、NF  （一行中有几个域）

4、awk中的函数操作

Grep
Grep的常用命令语法
1. 双引号引用和单引号引用
在g r e p命令中输入字符串参数时，最好将其用双引号括起来。例如：”m y s t r i n g”。这样做有两个原因，一是以防被误解为 s h e l l命令，二是可以用来查找多个单词组成的字符串，例如：”jet plane”，如果不用双引号将其括起来，那么单词 p l a n e将被误认为是一个文件，查询结果将返回”文件不存在”的错误信息。
在调用变量时，也应该使用双引号，诸如： g r e p”$ M Y VA R”文件名，如果不这样，将
没有返回结果。
在调用模式匹配时，应使用单引号.[root@mypc ]# echo `grep 123 111.txt` (#注意是反单引号)

2. 常用的g r e p选项有：
-c 只输出匹配行的计数。
-i 不区分大小写（只适用于单字符）。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行。

3. 特殊的-在多个文件中进行查询
$ grep “sort”*.doc ( #在当前目录下所有. d o c文件中查找字符串”s o r t”)

$ grep “sort it” * (#或在所有文件中查询单词”sort it”)
接下来的所有示例是指在单个文件中进行查询
4. 行匹配
$ grep -c “48″ data.f
$ 4 (#g r e p返回数字4，意义是有4行包含字符串”4 8″。)
$ grep “48″ data.f (#显示包含”4 8″字符串的4行文本)

5. 显示满足匹配模式的所有行行数：
[root@mypc oid2000]# grep -n 1234 111.txt
1:1234
3:1234ab

6. 精确匹配
[root@mypc oid2000]# grep “1234\>” 111.txt
1234

7. 查询空行，查询以某个条件开头或者结尾的行。
结合使用^和$可查询空行。使用- n参数显示实际行数
[root@mypc oid2000]# grep -n “^$” 111.txt (返回结果 2: #说明第二行是空行)
[root@mypc oid2000]# grep -n “^abc” 111.txt （#查询以abc开头的行）
[root@mypc oid2000]# grep -n “abc$” 111.txt (#查询以abc结尾的行)

8. 匹配特殊字符,查询有特殊含义的字符，诸如$ . ‘ ” * [] ^ | \ + ? ,必须在特定字符前加\。
[root@mypc oid2000]# grep “\.” 111.txt (#在111.txt中查询包含”.”的所有行)
[root@mypc oid2000]# grep “my\.conf” 111.txt (#查询有文件名my. c o n f的行)

9. 目录的查询
[root@mypc oid2000]# ls -l |grep “^d” (#如果要查询目录列表中的目录)
[root@mypc oid2000]# ls -l |grep “^d[d]” (#在一个目录中查询不包含目录的所有文件)
[root@mypc]# ls -l |grpe “^d…..x..x” (#查询其他用户和用户组成员有可执行权限的目录集合)

Sed的常用命令语法
Sed是一个非交互性文本流编辑器。它编辑文件或标准输入导出的文本拷贝。
1．行的匹配
[root@mypc /]# sed -n ‘2p’ /etc/passwd 打印出第2行
[root@mypc /]# sed -n ‘1,3p’ /etc/passwd 打印出第1到第3行
[root@mypc /]# sed -n ‘$p’ /etc/passwd 打印出最后一行
[root@mypc /]# sed -n ‘/user/’p /etc/passwd 打印出含有user的行
rpc:x:32:32:Portmapper RPC user:/:/sbin/nologin
rpcuser:x:29:29:RPC Service User:/var/lib/nfs:/sbin/nologin
[root@mypc /]# sed -n ‘/\$/’p /etc/passwd 打印出含有$元字符的行，$意为最后一行

2．插入文本和附加文本(插入新行)
[root@mypc /]# sed -n ‘/FTP/p’ /etc/passwd 打印出有FTP的行
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@mypc /]# sed ‘/FTP/ a\ 456′ /etc/passwd 在含有FTP的行后面新插入一行，内容为456
[root@mypc /]# sed ‘/FTP/ i\ 123′ /etc/passwd在含有FTP的行前面新插入一行，内容为123
[root@mypc /]# sed ‘/FTP/ i\ “123″‘ /etc/passwd在含有FTP的行前面新插入一行，内容为”123″
[root@mypc /]# sed ‘5 a\ 123′ /etc/passwd 在第5行后插入一新行，内容为123
[root@mypc /]# sed ‘5 i\ “12345″‘ /etc/passwd 在第5行前插入一新行，内容为”12345″

3．删除文本
[root@mypc /]# sed ‘1d’ /etc/passwd 删除第1行
[root@mypc /]# sed ‘1,3d’ /etc/passwd 删除第1至3行
[root@mypc /]# sed ‘/user/d’ /etc/passwd 删除带有user的行

4．替换文本,替换命令用替换模式替换指定模式，格式为：
[ a d d r e s s [，address]] s/ pattern-to-find /replacement-pattern/[g p w n]
[root@mypc /]# sed ’s/user/USER/’ /etc/passwd 将第1个user替换成USER,g表明全局替换
[root@mypc /]# sed ’s/user/USER/g’ /etc/passwd 将所有user替换成USER
[root@mypc /]# sed ’s/user/#user/’ /etc/passwd 将第1个user替换成#user,如用于屏蔽作用
[root@mypc /]# sed ’s/user//’ /etc/passwd 将第1个user替换成空
[root@mypc /]# sed ’s/user/&11111111111111/’ /etc/passwd 如果要附加或修改一个很长的字符串，可以使用（ &）命令，&命令保存发现模式以便重新调用它，然后把它放在替换字符串里面，这里是把&放前面
[root@mypc /]# sed ’s/user/11111111111111&/’ /etc/passwd 这里是将&放后面

5. 快速一行命令
下面是一些一行命令集。（[ ]表示空格，[ ]表示t a b键）
‘s / \ . $ / / g’ 删除以句点结尾行
‘-e /abcd/d’ 删除包含a b c d的行
‘s / [ ] [ ] [ ] * / [ ] / g’ 删除一个以上空格，用一个空格代替
‘s / ^ [ ] [ ] * / / g’ 删除行首空格
‘s / \ . [ ] [ ] * / [ ] / g’ 删除句点后跟两个或更多空格，代之以一个空格
‘/ ^ $ / d’ 删除空行
‘s / ^ . / / g’ 删除第一个字符
‘s /COL \ ( . . . \ ) / / g’ 删除紧跟C O L的后三个字母
‘s / ^ \ / / / g’ 从路径中删除第一个\
‘s / [ ] / [ ] / / g’ 删除所有空格并用t a b键替代
‘S / ^ [ ] / / g’ 删除行首所有t a b键
‘s / [ ] * / / g’ 删除所有t a b键
如果使用s e d对文件进行过滤，最好将问题分成几步，分步执行，且边执行边测试结果。
经验告诉我们，这是执行一个复杂任务的最有效方式。