perl学习笔记-----------------------（8）

来源：互联网发布：李昌钰有多厉害知乎编辑：程序博客网时间：2024/06/16 07:41

正则表达式，在Perl 中通常被称为模式(pattern)：某个模板是否匹配某个字符串◆。由于存在无限的字符串，某个给定的模式将这些字符串分两类：一类是能匹配的，一类是不能匹配的。这里没有，或者，大概，几乎那样的匹配：要么匹配，要么不匹配。要匹配某个模式（正则表达式）和$_的关系，可以将模式放在正斜线(//)之间，如下：

$_ =“yabba dabba doo”;if(/abba/){print “It matched!\n”;}

表达式/abba／将在$_寻找这四个字母。如果找到，则返回true，在本例中，它出现了不止一次，但结果没什么不同。总之，如果找到了，则匹配上；如果没找到，则没匹配上。由于模式匹配通常返回true 或false，因此经常用在if 或while 的条件表达式部分。所有在双引号中的转义字符在模式中均有效，因此你可以使用/coke\tsprite/来匹配11 个字符的字符串coke, tab(制表符)，sprite。引入特殊字符，它们被叫做元字符(metacharacters).

点(.)是通配符，它可以匹配任何单个的字符，但不包括换行符(“\n”)。如果只希望点(.)匹配句号，可以使用反斜线。这条规则对Perl 正则表达式中所有元字符均有效：元字符前使用反斜线将使它变成普通的字符。如，模式/3\.14159/中的点(.)即不是通配符。

反斜线是第二个元字符。如果需要真正的反斜线，需要重复使用两个反斜线，这和Perl 中其它情况下是一样的。星号(*)表示匹配前一项０次或者多次。。因此，/fred\t*barney/将匹配上fred 和barney之间有任意个制表位(tab)的字符串。可以这样看待星号(*)：“前面的东西，重复任意次数，包括0 次”。因此（.*)将匹配任意字符任意多数。将（.*）叫做“任意字符串匹配模式”，因为任意的字符串均能被匹配上（不包括换行符）。

加(+)的意思是可以匹配前面一项的一个或多个：/fred +barney/意思是fred 和barney 之间由空格分开，且只能是空格。(空格不是元字符)。它不会匹配fredbarney，因为加(+)意指一个或多个，因此至少是一个。可以这样看待加(+)：“最后一项，（可选的）至少还有一项。”

问号(?)，其含义是前面一个项出现一次，或者不出现。也就是说，前面这个项出现1 次或者0 次，此外不会有其它情况。因此，/barm-?bamm/只匹配：bamm-bamm 或bammbamm。括号也是元字符。在数学中，括号(())用来表示分组。模式/(fred)+/能匹配上像fredfredfred 这样的字符串，这更可能是你所希望的。那么模式/(fred)*/呢?它将匹配上像hello,world 这样的字符串。

星号(*)意指匹配上0 次或者多次fred。当为0 时，那什么字符串都能被匹配上。这个模式能匹配上任何字符串，甚至是空串。竖线(|)，在这种用法中通常被读作“或（or）”，意思是匹配左边的或者右边的。如果竖线左边没有匹配上，则匹配右边。因此，/fred|barney|betty/将匹配出现过fred，或者barney，或者betty 的字符串。

书写像/fred( |\t)+barney/这样的模式，它将匹配fred，barney 以及中间由空格，制表符(tab)，或者二者混合所组成的字符串。加(+)是指重复1 次或多次；每重复一次，( |\t)则有可能匹配一个空格，或者一个制表符。但fred 和barney之间这些字符中（空格，制表符）的其中之一必须出现一次。如果希望fred 和barney 之间的字符是一样的，可以将模式写成/fred( +|\t+)barney/。在本例中，分隔符必须全是空格或者全是制表符。

模式/fred (and|or) barney/能匹配如下两种字符串：fred and barney, fred or barney。字符类，是方括号[]中的一列字符，可以匹配上括号内出现的任意单个字符。它匹配一个字符，但这个字符可以是列中的任意一个。字符类[abcwxyz]可以匹配上括号内七个字母中的任意一个。为了方便，我们可以使用连字号(-)来表示某个范围的字母，因此上例也可以写做[a-cw-z]。

字符类前使用符号^将取此字符类的补集。也就是说，[^def]]将匹配上这三个字符中之外的任意单个字符。[^n\-z]将匹配上n, -, z 之外的任何字符。（连接符(-)前面使用反斜线的原因是，它在此字符类中有特别的含义（表示字符的范围）。任何数字的类，[0-9]，可以被简写为：\d。

\w 被称作“word’字符：[A-Za-z0-9_]。如果你的“words”由通常的字母，数字，下划线组成，那你将非常喜欢它。\w 不能匹配单词，而只能匹配单个字符。为了匹配整个单词，需要后接加号。模式/fred \w+ barney/将匹配fred，空格，一个“单词（word）”，然后是空格和barney。因此，如果fred 和barney 之间有一个单词◆，由单个空格分隔开，它将能匹配上。

\s 对于匹配空白（whitespace）将非常方便。它等价于[\f\t\n\r ]，其含5 个空白字符：格式符（form-feed）；制表符(tab)，换行符，回车，以及空格符。\s 匹配此类中的单个字符，如果使用\s*将匹配任何个数的空白（包括没有），或者\s+匹配一个以上的空白（事实上，很少见到单独使用\s，而不使用任何的数量词(*, +)）。

[^\d], [^\w], 和[^\s]，其含义分别是，非数字的字符，非word（记住我们对word 的定义）的字符，和非空白的字符。也可以使用它们对应的大写形式：\D, \W, \S 来完成。它们将匹配它们对应的小写形式不能匹配上的字符。另一个类字符[\d\D]，它的意思是任何数字，和任何非数字，则意指任何字符。这是匹配所有字符的一种通用方法，甚至包括换行符，而点(.)匹配除换行符以外的任何字符。而[^\d\D]则完全没用，因为它匹配既非数字也非非数字的字符，那什么也不是。

0 0