grep之初学探究

来源：互联网发布：伦敦电影学院知乎编辑：程序博客网时间：2024/06/05 09:41

今天在工作时，想用grep匹配一个字符串，我本来的写法是grep 'rooney_gm_log_\d'，但是发现这样不能实现。我改为grep 'rooney_gm_log_[0-9]'.后来咨询同事，告诉我应该写成grep -P 'rooney_gm_log_\d'。-P支持perl的正则表达式。\d难道是perl里才有的正则表达式吗？这个以前还真不知道。

后来开始测试正则表达式的常用用法，看看那些是扩展的，那些是perl

cat malog.log

/app/wuanchuang/malog.sh: line 14: type=3: command not found

grep '/app' malog.log 可以匹配出这句话

grep '/ap*'也可以匹配出来

但是grep '/ap+' 或者 '/ap?'就不能匹配出来，要用grep -E扩展的正则表达式。

grep '/ap{0,}' （--{}系列)匹配不出，也需要-E，是扩展正则表达式

总结：

$、^、*、.、[]、\w、\W是普通的正则表达式。我也不知道该怎么形容- -

{}、+、？要加-E，扩展正则表达式

\d、\D要加-P，perl的正则表达式

-v 反向查找。排除匹配的内容

-i 忽略大小写

-w 显示全字符符合的行。如果grep 'wu' ，则wu是一个完整的单词

-x 显示全行符合的行。如果grep 'wu'，则一行的内容是wu

-E 默认命令只支持基本的正则表达式，该选项使grep命令支持扩展正则表达式

-n 显示符合行的行号

-一个数字除了显示匹配的行之外，还显示该行上下制定的行数

-q 不显示任何信息。在if判断里使用时很合适

-l 查询多文件时只输出包含匹配字符的文件名

-c 显示匹配行的计数，即一共有多少行

-h 查询多文件时不显示文件名字

常用例子：

grep -E '^\w{8,}' 匹配以字母或者数字开头，最少出现八次的行。

grep -wE '^\w{8,}' 匹配整个单词是字母或者数字开头，最少出现八次

grep -E [1-9][0-9]{4,} 匹配QQ号，5位QQ号起

grep -P '\d{3}-\d{8}' 匹配电话号码

grep -P '\d+\.\d+\.\d+\.\d' 匹配IP地址

grep -wP '[1-9][0-9]{5,}*' 匹配匹配最少6位的整数

grep 'w\{0,3\) ' 匹配出现0-3个w的行。这是不加-E的用法也可以 grep -E 'w{0,3}'。我也有点迷啊。看样子，基本的正则表达式需要加\才能用一些符号啊。

在网上找到了资料。关于正则表达式基本集和扩展集。谢谢哥们了，好东西啊。

grep正则表达式元字符集（基本集）

^ 锚定行的开始如：'^grep'匹配所有以grep开头的行。

$ 锚定行的结束如：'grep$'匹配所有以grep结尾的行。

. 匹配一个非换行符的字符如：'gr.p'匹配gr后接一个任意字符，然后是p。

* 匹配零个或多个先前字符如：'*grep'匹配所有一个或多个空格后紧跟grep的行。.*一起用代表任意字符。

[] 匹配一个指定范围内的字符，如'[Gg]rep'匹配Grep和grep。

[^] 匹配一个不在指定范围内的字符，如：'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头，紧跟rep的行。

$..$ 标记匹配字符，如'$love$'，love被标记为1。

\< 锚定单词的开始，如:'\<grep'匹配包含以grep开头的单词的行。

\> 锚定单词的结束，如'grep\>'匹配包含以grep结尾的单词的行。

x\{m\} 重复字符x，m次，如：'0\{5\}'匹配包含5个o的行。

x\{m,\} 重复字符x,至少m次，如：'o\{5,\}'匹配至少有5个o的行。

x\{m,n\} 重复字符x，至少m次，不多于n次，如：'o\{5,10\}'匹配5--10个o的行。

\w 匹配文字和数字字符，也就是[A-Za-z0-9]，如：'G\w*p'匹配以G后跟零个或多个文字或数字字符，然后是p。

\W \w的反置形式，匹配一个或多个非单词字符，如点号句号等。

\b 单词锁定符，如: '\bgrep\b'只匹配grep。有点像\< \>

用于egrep和 grep-E的元字符扩展集

+ 匹配一个或多个先前的字符。如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串，如loveable,enable,disable等。

? 匹配零个或多个先前的字符。如：'gr?p'匹配gr后跟一个或没有字符，然后是p的行。

a|b|c 匹配a或b或c。如：grep|sed匹配grep或sed

() 分组符号，如：love(able|rs)ov+匹配loveable或lovers，匹配一个或多个ov。

x{m},x{m,},x{m,n} 作用同x\{m\},x\{m,\},x\{m,n\}

POSIX字符类

为了在不同国家的字符编码中保持一至，POSIX(The Portable Operating System Interface)增加了特殊的字符类，如[:alnum:]是A-Za-z0-9的另一个写法。要把它们放到[]号内才能成为正则表达式，如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外，都支持POSIX的字符类。

[:alnum:]文字数字字符

[:alpha:]文字字符

[:digit:]数字字符

[:graph:]非空字符（非空格、控制字符）

[:lower:]小写字符

[:cntrl:]控制字符

[:print:]非空字符（包括空格）

[:punct:]标点符号

[:space:]所有空白字符（新行，空格，制表符）

[:upper:]大写字符

[:xdigit:]十六进制数字（0-9，a-f，A-F）