grep之初学探究

来源:互联网 发布:伦敦电影学院 知乎 编辑:程序博客网 时间:2024/06/05 09:41

今天在工作时,想用grep匹配一个字符串,我本来的写法是grep 'rooney_gm_log_\d',但是发现这样不能实现。我改为grep 'rooney_gm_log_[0-9]'.后来咨询同事,告诉我应该写成grep  -P 'rooney_gm_log_\d'。-P支持perl的正则表达式。\d难道是perl里才有的正则表达式吗?这个以前还真不知道。

后来开始测试正则表达式的常用用法,看看那些是扩展的,那些是perl

cat malog.log

/app/wuanchuang/malog.sh: line 14: type=3: command not found

grep '/app' malog.log  可以匹配出这句话

grep '/ap*'也可以匹配出来

但是grep '/ap+'  或者 '/ap?'就不能匹配出来,要用grep -E扩展的正则表达式。

grep '/ap{0,}'  (--{}系列)匹配不出,也需要-E,是扩展正则表达式

总结:

$、^、*、.、[]、\w、\W是普通的正则表达式。我也不知道该怎么形容- -

{}、+、?要加-E,扩展正则表达式

\d、\D要加-P,perl的正则表达式


-v  反向查找。排除匹配的内容

-i   忽略大小写

-w 显示全字符符合的行。如果grep 'wu' ,则wu是一个完整的单词

-x  显示全行符合的行。   如果grep 'wu',则一行的内容是wu

-E  默认命令只支持基本的正则表达式,该选项使grep命令支持扩展正则表达式

-n  显示符合行的行号

-一个数字 除了显示匹配的行之外,还显示该行上下制定的行数

-q  不显示任何信息 。在if判断里使用时很合适

-l   查询多文件时只输出包含匹配字符的文件名

-c  显示匹配行的计数,即一共有多少行

-h  查询多文件时不显示文件名字


常用例子:

grep -E '^\w{8,}'   匹配以字母或者数字开头,最少出现八次的行。

grep -wE '^\w{8,}'  匹配整个单词是字母或者数字开头,最少出现八次

grep -E  [1-9][0-9]{4,}  匹配QQ号,5位QQ号起

grep -P '\d{3}-\d{8}' 匹配电话号码

grep -P  '\d+\.\d+\.\d+\.\d'  匹配IP地址

grep -wP '[1-9][0-9]{5,}*'  匹配匹配最少6位的整数

grep 'w\{0,3\) '  匹配出现0-3个w的行。这是不加-E的用法也可以 grep -E 'w{0,3}'。我也有点迷啊。看样子,基本的正则表达式需要加\才能用一些符号啊。



在网上找到了资料。关于正则表达式基本集和扩展集。谢谢哥们了,好东西啊。


grep正则表达式元字符集(基本集)

^       锚定行的开始 如:'^grep'匹配所有以grep开头的行。

$       锚定行的结束 如:'grep$'匹配所有以grep结尾的行。

.        匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。

*        匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。.*一起用代表任意字符。

[]       匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。

[^]     匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头,紧跟rep的行。

\(..\)  标记匹配字符,如'\(love\)',love被标记为1。

\<      锚定单词的开始,如:'\<grep'匹配包含以grep开头的单词的行。

\>      锚定单词的结束,如'grep\>'匹配包含以grep结尾的单词的行。

x\{m\}      重复字符x,m次,如:'0\{5\}'匹配包含5个o的行。

x\{m,\}     重复字符x,至少m次,如:'o\{5,\}'匹配至少有5个o的行。

x\{m,n\}   重复字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10个o的行。

\w     匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。

\W     \w的反置形式,匹配一个或多个非单词字符,如点号句号等。

\b      单词锁定符,如: '\bgrep\b'只匹配grep。有点像\< \>


用于egrep和 grep-E的元字符扩展集

+       匹配一个或多个先前的字符。如:'[a-z]+able',匹配一个或多个小写字母后跟able的串,如loveable,enable,disable等。

?       匹配零个或多个先前的字符。如:'gr?p'匹配gr后跟一个或没有字符,然后是p的行。

a|b|c  匹配a或b或c。如:grep|sed匹配grep或sed

()      分组符号,如:love(able|rs)ov+匹配loveable或lovers,匹配一个或多个ov。

x{m},x{m,},x{m,n}   作用同x\{m\},x\{m,\},x\{m,n\}


POSIX字符类

为 了在不同国家的字符编码中保持一至,POSIX(The Portable Operating System Interface)增加了特殊的字符类,如[:alnum:]是A-Za-z0-9的另一个写法。要把它们放到[]号内才能成为正则表达式,如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外,都支持POSIX的字符类。

[:alnum:]文字数字字符

[:alpha:]文字字符

[:digit:]数字字符

[:graph:]非空字符(非空格、控制字符)

[:lower:]小写字符

[:cntrl:]控制字符

[:print:]非空字符(包括空格)

[:punct:]标点符号

[:space:]所有空白字符(新行,空格,制表符)

[:upper:]大写字符

[:xdigit:]十六进制数字(0-9,a-f,A-F)

原创粉丝点击