正则表达式 Regular Expression

来源：互联网发布：淘宝网淘我喜欢编辑：程序博客网时间：2024/05/16 08:51

http://www.cnblogs.com/lovewife/articles/1438417.html

字符的表示
1. 普通字符，特殊字符：
特殊字符：.|*?+(){}[]^$\，相当于语言的关键字，这些字符前面加转义符"\"表示字符本身，否则就作为正则表达式特殊用途字符。
特殊转义字符：下表主要针对.Net的正则表达式

Escape sequenceCharacter codeMeaning\a0x07响铃字符\f0x0CForm feed.\n0x0A换行符\r0x0D回车符\t0x09Tab character.\v0x0BVertical tab.\e0x1BASCII的Esc字符\b0x081. 在[]里面出现时表示删除键的ASCII字符（Backspace）
2. 不是出现在[]里面，则表示单词的边界，例如表达式\b\w+\b匹配文本串"Hi Hello Kitty的结果是："Hi", "strong", "Hello", "Kitty", "strong"。\0dd0ddAn octal character code, wheredd is one or more octal digits. \xXX0xXXA hexadecimal character code, where XX is one or more hexadecimal digits.\u0020
Matches a Unicode character using hexadecimal representation (exactly four digits).\cZCtl+ZMatches an ASCII control character; for example, \cC is control-C. 除了上面的特殊字符之外，其它普通字符都直接去匹配输入文本串中的字符。
2. 字符枚举：中括号括起来，例如[abc]表示出现a, b, c中任意一个字符都可以；[^abc]则匹配除了a, b, c之外的任意一个字符。
3. 字符范围：[a-zA-Z0-9]。
4. 综合表示：

\w

所有大小写英文字母、数字字符、下划线，等同于[a-zA-Z0-9_]

\W

除了\w之外的所有字符，等同于[^a-zA-Z0-9_]，包括空白字符、各种特殊字符等\s所有空白字符，等同于[\t\n\r\f\v]\S除了\s之外的所有字符，等同于[^\t\n\r\f\v]\d所有的数字字符，等同于[0-9]\D所有的非数字字符，等同于[^0-9]\A匹配字符串的开始位置（不代表任何字符，匹配结果长度为０）\Z匹配字符串的结束位置（不代表任何字符，匹配结果长度为０）.在DOTALL模式下，表示任何字符（包括空白字符、各种特殊字符等），等同于[\w\W]、[\s\S]、[\d\D]等
在非DOTALL模式下，表示除了换行符之外的所有字符
DOTALL模式，参考下面正则表达式选项部分
Alternation, Condition Constructs（等价、条件式结构）
1. Alternation Construct: (pattern1)|(pattern2)，子表达式1或者2任意一个匹配就匹配成功。
2. Condition Construct: (?(expression)(patternYes)|(patternNo))，如果符合expression，则使用patternYes子表达式进行匹配，否则使用patternNo进行匹配。expression也可以是backreference中的group名字，backreference后面详细讲述。这个语法形式是.Net正则表达式的，其它正则表达式引擎也有支持条件式结构的，但语法可能不一样。
例如正则式(?(\d{4})((19|20)\d{2})|(\d{2}))匹配文本串"2004年 98年"，结果是"2004", "98"，其中"2004"是使用patternYes部分匹配出来的，而"98"是使用patternNo部分。

Quantifier（量词）
指表达式需要重复匹配多少次。
* 0或多次
+ 1或多次
? 作为量词时表示0或１次，在其它量词后面出现时作为greedy, lazy/non-greedy模式开关。
{n} n次
{n,} 最少n次
{n,m} 最少n次，最多m次
*?, +?, {n}?, {n,}?, {n,m}? 开启lazy/non-greedy模式，例如{n,m}表示最少n次，最多m次，在这个范围内尽可能少的匹配。
greedy, lazy/non-greedy模式参考下面相关部分。

Zero-Width Assertions（零宽度断言）
这种结构产生的匹配结果长度为0（所以称作零宽度），只是用于对上下文环境做判断（所以称作断言）。
^ 如果使用Multiline选项，匹配每一行的开始位置；如果使用Singleline选项，匹配整个字符串开始位置。^如果出现在[]中就不是Zero-Width Assertion了。
$ 如果使用Multiline选项，匹配每一行的结束位置（\n之前）；如果使用Singleline选项，匹配整个字符串结束位置。
\A 忽略Multiline选项（相当于取消Multiline选项并设置Singleline选项），匹配整个字符串开始位置。
\Z 忽略Multiline选项，匹配整个字符串结束位置，中间的\n不会考虑。.Net中\z和\Z的效果完全一样，不知道是bug还是怎么回事。
前面提到的条件式结构，以及\b如果不是出现在[]中，都是Zero-Width Assertions；后面将会讲到的lookahead, lookbehind也是一种Zero-Width Assertion。
Multiline, Singleline等，参考正则表达式选项部分。

Greedy, Lazy/Non-greedy（贪婪模式，惰性模式）
在使用quantifier量词修饰，需要执行重复n次的匹配中，greedy模式尽可能多的匹配更多字符，而lazy/non-greedy模式则尽可能少的匹配字符。
NFA（参考后面NFA, DFA部分）默认都是采用greedy模式，而当今主要正则表达式引擎都是NFA，因此注意greedy模式的影响。将greedy模式改为non-greedy，在量词修饰符后面添加"?"实现。例如NFA中\w+为greedy模式，\w+?为non-greedy模式。

文本串为："dxxxdxxxd"，greedy模式：
Regular ExpressionResult(d)(\w+)"\w+"将匹配第一个"d"之后的所有字符"xxxdxxxd"(d)(\w+)(d)"\w+"将匹配第一个"d"和最后一个"d"之间的所有字符"xxxdxxx"。虽然"\w+"也能够匹配上最后一个"d"，但是为了使整个表达式匹配成功，"\w+"可以"让出"它本来能够匹配的最后一个"d"
文本串为："dxxxdxxxd"，non-greedy模式：
Regular ExpressionResult(d)(\w+?)"\w+?"将尽可能少的匹配第一个"d"之后的字符，结果是："\w+?"只匹配了一个"x"（第二个字符）(d)(\w+?)(d)为了让整个表达式匹配成功，"\w+?"不得不匹配"xxx"才可以让后边的"d"匹配，从而使整个表达式匹配成功。因此，结果是："\w+?"匹配"xxx"
Group, Back Reference（分组、反向引用）
正则表达式引擎不仅记录最终的匹配结果，使用()括起来的子表达式匹配到的文本串，在匹配过程中也会记录下来。在.Net中，可以使用Match.Groups访问某个匹配结果的所有分组。
没有指定名称的分组称为匿名分组，对所有的匿名分组都默认有一个组号。.Net中组号为０的分组是整个正则表达式，而不管这个正则表达式是否使用()括起来了。对于其它的匿名分组，根据左括号出现的先后位置依次从１开始编号。例如表达式((abc)\d+)?(xyz)(.*)总共有５个分组，依次为0:((abc)\d+)?(xyz)(.*), 1:((abc)\d+), 2:(abc), 3:(xyz), 4:(.*)。
可以对分组命名，.Net中命名方法:(?<groupName>patterns)。如果存在命名分组，则所有命名分组的编号将从最后一个匿名分组的位置开始，依次递增。例如表达式((?<group1>abc)\d+)?(?<group2>xyz)(.*)的5个分组依次为0:((?<group1>abc)\d+)?(?<group2>xyz)(.*), 1:((?<group1>abc)\d+), 2:(.*), 3:(?<group1>abc), 4:(?<group2>xyz)。

在表达式的后面部分引用前面的某一个子表达式分组叫做反向引用。
对于匿名分组的反向引用方法是"\" 加上分组编号，对于命名分组，.Net中的引用方法是\k<groupName>。
Regular ExpressionInput StringResult('|")(.*?)(\1)'hello' "world"1. 'hello'
2. "world" (\w)\1{4,}aa bbbb abcdefg ccccc 111121111 9999999991. ccccc
2. 99999999 <(?<tag1>\w+)>[\w\W]*</\k<tag1>>Hello Kitty is the nameHello Kitty注意上面表格中第二个例子的表达式与\w{5,}的区别，(\w)\1{4,}表示同一个字符重复至少5次以上，而\w{5,}表示连续5个以上字符（不必是同一个字符）。

可以禁止正则表达式记录某个分组的匹配结果，这样的分组也就不会被编号，无法被反向引用。禁止分组使用(?:patterns)，例如表达式abc(?:\w{3})(\d+)abc总共有两个分组，组号0为整个表达式，组号1为(\d+)。
.Net中，\1到\9总是被当作反向引用；\12这种类型，如果存在编号为12的分组，则作为反向引用，否则将\12转义为ASCII字符，为了消除这种歧意，可以使用\k<n>这种方式。
注意：.Net中分组命名时尖括号<, >可以使用单引号代替。

Lookahead, Lookbehind（正向预搜索、反向预搜索）
匹配当前的某一个子表达式时，可能需要根据前面或者后面出现的字符进行判断（即上下文环境），lookahead、lookbehind就是用于这个目的。
NFA以文本串作为有穷输入字符集Σ，从文本串逐个读取字符进行匹配，所以沿着字符读取方向的是lookahead，与字符读取方向相反则为lookbehind。
lookahead: (?=patterns), (?!patterns)。lookbehind: (?<=patterns), (?<!patterns)。

Regular ExpressionInput StringResultlookaheadWindows (?=NT|XP)Windows 98, Windows NT, Windows 2000仅匹配"Windows NT"中的"Windows "
解释：匹配"Windows "，后面必须是字符"NT"或者"XP" lookahead(\w)((?=\1\1\1)(\1))+aaa ffffff 999999999匹配6个"f"的前4个以及9个"9"的前7个
解释：以6个f的地方为例，第一个f匹配(\w)。接下来是一个子表达式((?=\1\1\1)(\1))，需要出现1次以上。这个子表达式由两个部分组成，第一部分(?=\1\1\1)是一个lookahead，可以把它跟最后那个(\1)放在在一起考虑，所以对于第4个f，能够匹配(\1)，也满足它的前面一个位置（第三个f）后面还有三个f（第4、5、6三个）lookaheaddo(?!\w)done, do, dog只匹配"do,"这个位置上的"do"
解释：匹配"do"，后面不能有任何[a-zA-Z0-9_]这些字符lookbehind(?<=\d{4})\d+(?=\d{4})1234567890123456"56789012"
Options（正则表达式选项）
JavaScript的正则表达式，使用/gi这样的开关控制正则表达式选项。.Net中可以使用RegexOptions枚举进行全局设置，可以在分组表达式中使用(?imnsx-imnsx:patterns)方式，在这个分组内开启或禁用某些选项，也可以在表达式的中间使用(?imnsx-imnsx)，从中间这个位置开始开启或禁用某些选项。全局RegexOptions的优先级低于嵌入方式。
嵌入方式中imnsx表示打开某种选项或选项的组合，前面添加减号"-"表示关闭这些选项。例如(?ix-ms)表示从这个位置开始，打开IgnoreCase、IgnorePatternWhiteSpace选项，关闭Multiline、Singleline选项。
嵌入方式修改正则表达式选项，也叫做Modifier。
RegexOption memberInline characterDescriptionNoneN/ASpecifies that no options are set.IgnoreCasei匹配过程中忽略大小写因素Multilinem在Multiline模式下，^和$分别匹配每一行的开始和结束位置；否则将分别匹配整个文本串的开始和结束位置ExplicitCapturen匹配过程中不捕获任何匿名分组，相当于在表达式中对所有匿名分组使用(?:)CompiledN/A将正则表达式预编译到assembly中，提高匹配性能Singlelines也就是DOTALL模式的开关，打开Sigleline开关，.将匹配任何一个字符，否则.只匹配换行符以外的字符IgnorePatternWhitespacex忽略表达式中没有转义的空白字符(\s)，并开启单个未#符号的注释方式
这个选项开启后，表达式中从未转义的#符号开始，到这一行的结束位置都作为注释对待
表达式中另外一种注释方式为(#your comments)，只有括号里面的部分才是注释内容RightToLeftN/A对输入字符集的默认扫描方向为从左至右，该选项将扫描方向修改为从右至左
该选项只是改变了对输入字符集的扫描方向，它并不会改变表达式对子文本串的匹配方向，lookahead、 lookbehind的方向也不会改变，lookahead仍然向右搜索，lookbehind仍然向左搜索ECMAScriptN/A...CultureInvariantN/A...
NFA, DFA
正则表达式引擎的两种类型，NFA: Nondeterministic Finite Automata, DFA: Deterministic Finite Automaton。
NFA基于正则表达式去匹配文本（文本作为有穷字母表Σ），而DFA是基于文本去匹配正则表达式。DFA捏着文本串去比较正则式，看到一个子正则式，就把可能的匹配串全标注出来，然后再看正则式的下一个部分，根据新的匹配结果更新标注。而NFA是捏着正则式去比文本，吃掉一个字符，就把它跟正则式比较，匹配就记下来，然后接着往下干。一旦不匹配，就把刚吃的这个字符吐出来，一个个的吐，直到回到上一次匹配的地方。把多吃的字符吐出部分重新匹配的过程叫做backtracking（回溯）。
.Net中可以使用(?>patterns)，禁止对这个子表达式进行回溯，即对输入字符backtracking过程中，一旦遇到这个子表达式已经匹配的字符，就停止backtracking。下面示例演示了这个效果：
Regular ExpressionInput StringResult(\w)(\1*)(a)aaa ffffff 999999a9991. aaa
2. 999999a
(\w)(?>\1*)(a)aaa ffffff 999999a999只有999999a
因为在对aaa的匹配过程中，最后一个a被\1*匹配上，但又不允许回溯，所以在读取aaa后面的那个空格字符后，发现跟子正则式(a)不匹配

NFA、DFA主要对比：
1. DFA对文本串只扫描一次，速度快（时间与有穷字母表Σ的大小成线性关系），但特性少；NFA需反复扫描文本串，速度慢，但特性多。目前主要正则表达式引擎基本都是NFA，例如Perl、Java、.Net、Python、Td、Emacs，DFA的引擎有awk、egrep、lex。
2. NFA最左子正则式优先匹配，DFA是最长左子正则式优先匹配。
3. 只有NFA支持lazy、backtracking、backreference，NFA缺省使用greedy模式，NFA可能陷入递归陷阱导致性能极差。DFA只包含有穷状态，匹配过程中无法捕获子表达式（分组）的匹配结果，因此也无法支持backreference。
有另一种NFA引擎，叫做POSIX NFA引擎。传统NFA在backtracking时，只要当前位置上的最左子正则式匹配成功就停止；而POSIX NFA会继续尝试backtracking，以试图像DFA一样找到最长左子正则式。因此POSIX NFA速度更慢。
EngineRegular ExpressionInput StringResultNFA perl|perlmanperlman bookperlNFA perlman|perlperlman bookperlmanDFA perl|perlmanperlman bookperlman
详细的NFA、DFA定义、算法，参考编译原理。

附加说明
1. 正则表达式在发展过程中，形成了很多版本的引擎，最基本的为grep，为了使grep具备更多特性而扩展出egrep，目前使用的大多数正则引擎都是backtracking型的NFA。不同的正则表达式引擎之间，实现上多少也都有些差别，并且开发商还可能作出特有的扩展、语法形式等。因此，这就意味着并不是同一个正则表达式就会适用于所有的环境，例如.Net中的正则表达式，就不一定能在Java、Python、Unix中工作，这在网上查找正则表达式资源时需要注意。
2. 使用传统NFA，书写正则表达式需要特别注意性能问题，否则很容易导致死循环、性能极差等情况。
 对正则表达式依赖性比较强的系统（大量使用正则做搜索匹配），最好完全掌握NFA->DFA算法，充分理解所使用的正则表达式引擎的原理和特性。
 可以通过减少表达式中的模糊匹配、限制回溯等方法，将传统NFA的性能从多项式优化到线形关系，这完全取决于正则式的写法。