学习笔记：文本过滤_____unix 下的通配符

来源：互联网发布：python获取交集编辑：程序博客网时间：2024/04/30 15:48

有个文件 test.txt 内容如下：

bash-3.00$ cat test.txt

user

user_hi

user

#注：呢行系空行

T
J
GATEMAN
GATTTTTEMAN
GABBEMAN

AAAB

bash-3.00$

下面介绍下常用的通配符配合grep 命令：

1. "." 匹配单字符

例如：

bash-3.00$ grep -n u..r test.txt

1: user

2: user

3: user_hi

4:user

bash-3.00$ grep -n u..r.h.. test.txt #匹配唔成功

bash-3.00$ grep -n u..r.h. test.txt

3: user_hi

==========================================================================

2. ”^" 匹配行首

例如：

bash-3.00$ grep -n ^u test.txt

4:user #只匹配到第4行，因为^u 表示以u开头的行，不包括以空格和tab开头的行

bash-3.00$ grep -n ^u.e test.txt # 和. 配合使用

4:user

==========================================================================

3. "$" 匹配行尾

例如：

bash-3.00$ grep -n er$ test.txt #以er结尾的行

1: user

2: user

4:user

bash-3.00$ grep -n ^u..r$ test.txt #配合^使用以u开头中间有2个字符而且 r结尾的行

4:user

bash-3.00$ grep -n ^$ test.txt # ^$ 只匹配空行不包括有空格的行(第5行)

bash-3.00$ grep -n ^.$ test.txt # 匹配只有1个字符的行(第6行只有1个字符T)

6:T

bash-3.00$ grep -n ^..$ test.txt # 匹配有且只有2个字符的行(第7行只有2个字符：空格和 J)

7: J

==========================================================================

4. "*" 匹配单字符或重复队列

例如：

bash-3.00$ grep -n * test.txt #单独使用 *什么也匹配不到

bash-3.00$ grep -n ^k* test.txt #匹配以n个k开头的行 n>=0 因为包含0个k开头的行，所以实际上匹配所有行

1: user

2: user

3: user_hi

4:user

6:T

7: J

8:GATEMAN

9:GATTTTTEMAN

10:GABBEMAN

bash-3.00$ grep -n us*e..h*i$ test.txt #未指定开头,含有1个u,后面跟0个或n个s，跟着e，跟住2个字符，跟住0个或n个h，i结尾

3: user_hi

bash-3.00$ grep -n GAT*..AN$ test.txt #你懂的 0个或N个T

8:GATEMAN

9:GATTTTTEMAN

gateman@GPC:~/shell$ grep -n G.*MAN test.txt # .*组合使用常用的来了意思是G后面跟任意字符任意次..
8:GATEMAN
9:GATTTTTEMAN
10:GABBEMAN

==========================================================================

5. ”\“ 屏蔽一个特殊字符的含义

有时需要查找一些字符或字符串，而它们包含了系统指定为特殊字符的一个字符。什么

是特殊字符？一般意义上讲，下列字符可以认为是特殊字符：

￥ ., () {} [] * ^ % $.....

假定要匹配包含字符“.”的各行而 "." 代表匹配任意单字符的特殊字符，因此需要屏蔽

其含义。操作如下：

\ .

上述模式不认为反斜杠后面的字符是特殊字符，而是一个普通字符，即句点。

假定要匹配包含^的各行，将反斜杠放在它前面就可以屏蔽其特殊含义。如下：

\ ^

如果要在正则表达式中匹配以* . p a s结尾的所有文件，可做如下操作：

\ * \ . p a s

即可屏蔽字符*的特定含义。

==========================================================================

6. "[ ]" 匹配1个集合
如:
gateman@GPC:~/shell$ grep -n u[Ss]er test.txt                 #匹配大写 S或小写s
1:    user
2: user
3:   user_hi
4:user

为抽取诸如S c o u t、s h o u t、b o u g h t等单词，使用下列表达式：
[ou] .*t
匹配以字母o或u开头，后跟任意一个字符任意次，并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词，这里S可大写或小写。使用如下操作：
[ S,s ] y s t e m \ .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益，例如[ A - Z a - Z ] *将
匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用，当直接用在第一个括号里，意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符，而
[ ^ 0 - 9 ]
匹配任一非数字型字符。
==========================================================================
7. "\{\}" 指定匹配次数

例如：

gateman@GPC:~/shell$ grep -n AT\{1\}E test #一定要带“ ”号，否则无结果

gateman@GPC:~/shell$ grep -n "AT\{1\}E" test.txt #只跟1个T

8:GATEMAN

gateman@GPC:~/shell$ grep -n "A\{1,\}B" test.txt #1个或以上的A跟住B 例如AB AAB AAAB..

10:GABBEMAN

11:AAAB

gateman@GPC:~/shell$ grep -n "A\{1\}B" test.txt #只匹配AB，注意： AAAB 包含AB

10:GABBEMAN

11:AAAB

gateman@GPC:~/shell$ grep -n "^A\{1,2\}B" test.txt #1～2个A ，只匹配AB 和AAB 并且以A开头，注意： AAAB 不符

gateman@GPC:~/shell$ grep -n "^A\{1,3\}B" test.txt #这个就可以稳出来了.

11:AAAB