学习笔记:文本过滤_____unix 下的通配符

来源:互联网 发布:python获取交集 编辑:程序博客网 时间:2024/04/30 15:48
有个文件 test.txt 内容如下:

bash-3.00$ cat test.txt 
        user
  user
   user_hi
user
#注:呢行系空行
T
J
GATEMAN
GATTTTTEMAN
GABBEMAN
AAAB
bash-3.00$ 

下面介绍下常用的通配符 配合grep 命令:
1.   "."   匹配单字符
例如:
bash-3.00$ grep -n u..r test.txt 
1:      user
2:  user
3:   user_hi
4:user
bash-3.00$ grep -n u..r.h.. test.txt     #匹配唔成功
bash-3.00$ grep -n u..r.h. test.txt 
3:   user_hi


==========================================================================
2.  ”^" 匹配行首
例如:
bash-3.00$ grep -n ^u test.txt 
4:user                                          #只匹配到第4行, 因为^u 表示以u开头的行,不包括以空格和tab开头的行
bash-3.00$ grep -n ^u.e test.txt    # 和. 配合使用
4:user

==========================================================================
3. "$" 匹配行尾
例如:
bash-3.00$ grep -n er$ test.txt                      #以er结尾的行
1:      user
2:  user
4:user
bash-3.00$ grep -n ^u..r$ test.txt                  #配合^使用  以u开头 中间有2个字符 而且 r结尾的行
4:user
bash-3.00$ grep -n ^$ test.txt                       #  ^$ 只匹配空行  不包括有空格的行(第5行)
5:
bash-3.00$ grep -n ^.$ test.txt                      # 匹配只有1个字符的行(第6行只有1个字符T)
6:T
bash-3.00$ grep -n ^..$ test.txt                      # 匹配有且只有2个字符的行(第7行只有2个字符:空格 和 J)
7: J

==========================================================================
4. "*" 匹配单字符 或重复队列
例如:
bash-3.00$ grep -n * test.txt                               #单独使用 *什么也匹配不到
bash-3.00$ grep -n ^k* test.txt                            #匹配以n个k开头的行 n>=0  因为包含0个k开头的行,所以实际上匹配所有行
1:      user
2:  user
3:   user_hi
4:user
5:
6:T
7: J
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN
bash-3.00$ grep -n us*e..h*i$ test.txt     #未指定开头,含有1个u,后面跟0个或n个s,跟着e,跟住2个字符,跟住0个或n个h,i结尾    
3:   user_hi
bash-3.00$ grep -n GAT*..AN$ test.txt   #你懂的  0个或N个T
8:GATEMAN
9:GATTTTTEMAN

gateman@GPC:~/shell$ grep -n G.*MAN test.txt # .*组合使用 常用的来了 意思是G后面跟任意字符 任意次..
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN

==========================================================================
5.   ”\“ 屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么
是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:
¥ ., () {} [] * ^ % $.....
假定要匹配包含字符“.”的各行而 "." 代表匹配任意单字符的特殊字符,因此需要屏蔽
其含义。操作如下:
\ .
上述模式不认为反斜杠后面的字符是特殊字符,而是一个普通字符,即句点。
假定要匹配包含^的各行,将反斜杠放在它前面就可以屏蔽其特殊含义。如下:
\ ^
如果要在正则表达式中匹配以* . p a s结尾的所有文件,可做如下操作:
\ * \ . p a s
即可屏蔽字符*的特定含义。
==========================================================================

6.  "[ ]" 匹配1个集合
如:
gateman@GPC:~/shell$ grep -n u[Ss]er test.txt                 #匹配大写 S或小写s
1:    user
2:  user
3:   user_hi
4:user

为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m \ .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将
匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。
==========================================================================
7. "\{\}" 指定匹配次数

例如:
gateman@GPC:~/shell$ grep -n  AT\{1\}E test                            #一定要带“ ”号,否则无结果  
gateman@GPC:~/shell$ grep -n "AT\{1\}E" test.txt                      #只跟1个T
8:GATEMAN
gateman@GPC:~/shell$ grep -n "A\{1,\}B" test.txt                      #1个或以上的A跟住B  例如AB AAB AAAB..
10:GABBEMAN
11:AAAB
gateman@GPC:~/shell$ grep -n "A\{1\}B" test.txt                       #只匹配AB, 注意:  AAAB 包含AB
10:GABBEMAN
11:AAAB

gateman@GPC:~/shell$ grep -n "^A\{1,2\}B" test.txt      #1~2个A ,只匹配AB 和AAB 并且以A开头, 注意:  AAAB 不符
gateman@GPC:~/shell$ grep -n "^A\{1,3\}B" test.txt      #这个就可以稳出来了.
11:AAAB