Python re 正则模块

来源：互联网发布：telnet端口命令编辑：程序博客网时间：2024/04/28 18:06

有些字符比较特殊，它们和自身并不匹配，而是会表明应和一些特殊的东西匹配，或者它们会影响到 RE 其它部分的重复次数，它们叫元字符。

. ^ $ * + ? { [ ] \ | ( )

“[” 和 “]”常用来指定一个字符类别，所谓字符类别就是你想匹配的一个字符集。字符可以单个列出，也可以用“-”号分隔的两个给定字符来表示一个字符区间。
[abc] 将匹配”a”, “b”, 或 “c”中的任意一个字符；也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写字母，那么RE 应写成 [a-z].
例如，[akm]将匹配字符"a","k","m",或"” 中的任意一个；”$”通常用作元字符，但在字符类别里，其特性被除去，恢复成普通字符。
用补集来匹配不在区间范围内的字符。其做法是把”^”作为类别的首个字符；其它地方的”^”只会简单匹配 “^”字符本身。例如，[^5] 将匹配除 “5” 之外的任意字符。
反斜杠 \

\d  匹配任何十进制数；它相当于类 [0-9]。\D  匹配任何非数字字符；它相当于类 [^0-9]。\s  匹配任何空白字符；它相当于类  [ \t\n\r\f\v]。\S  匹配任何非空白字符；它相当于类 [^ \t\n\r\f\v]。\w  匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。\W  匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]。

这样特殊字符都可以包含在一个字符类中。如，[\s,.]字符类将匹配任何空白字符或”,”或”.”。

重复

第一个重复功能的元字符是。并不匹配字母字符 “*”；相反，它指定前一个字符可以被匹配零次或更多次，而不是只有一次。

举个例子，ca*t 将匹配 “ct” (0 个 “a” 字符), “cat” (1 个 “a”), “caaat” (3 个 “a” 字符)等等。RE 引擎有各种来自 C 的整数类型大小的内部限制，以防止它匹配超过2亿个 “a” 字符；你也许没有足够的内存去建造那么大的字符串，所以将不会累计到那个限制。
另一个重复元字符是 +，表示匹配一或更多次。请注意 * 和 + 之间的不同；＊匹配零或更多次，所以根本就可以不出现，而 + 则要求至少出现一次。用同一个例子，ca+t 就可以匹配 “cat” (1 个 “a”)， “caaat” (3 个 “a”)，但不能匹配 “ct”。

还有更多的限定符。问号 ? 匹配一次或零次；你可以认为它用于标识某事物是可选的。例如：home-?brew 匹配 “homebrew” 或 “home-brew”。

最复杂的重复限定符是 {m,n}，其中 m 和 n 是十进制整数。该限定符的意思是至少有 m 个重复，至多到 n 个重复。举个例子，a/{1,3}b 将匹配 “a/b”，”a//b” 和 “a///b”。它不能匹配 “ab” 因为没有斜杠，也不能匹配 “a////b” ，因为有四个。

你可以忽略 m 或 n；因为会为缺失的值假设一个合理的值。忽略 m 会认为下边界是 0，而忽略 n 的结果将是上边界为无穷大 – 实际上是先前我们提到的 2 兆，但这也许同无穷大一样。
反斜杠的麻烦

在早期规定中，正则表达式用反斜杠字符 (“”“) 来表示特殊格式或允许使用特殊字符而不调用它的特殊用法。这就与 Python 在字符串中的那些起相同作用的相同字符产生了冲突。

让我们举例说明，你想写一个 RE 以匹配字符串 “”section”，可能是在一个 LATEX 文件查找。为了要在程序代码中判断，首先要写出想要匹配的字符串。接下来你需要在所有反斜杠和元字符前加反斜杠来取消其特殊意义。

字符阶段
\section 要匹配的字符串
\section 为 re.compile 取消反斜杠的特殊意义
“\\section” 为字符串取消反斜杠

简单地说，为了匹配一个反斜杠，不得不在 RE 字符串中写 ‘\’，因为正则表达式中必须是 “\”，而每个反斜杠按 Python 字符串字母表示的常规必须表示成 “\”。在 REs 中反斜杠的这个重复特性会导致大量重复的反斜杠，而且所生成的字符串也很难懂。

解决的办法就是为正则表达式使用 Python 的 raw 字符串表示；在字符串前加个 “r” 反斜杠就不会被任何特殊方式处理，所以 r”\n” 就是包含”\” 和 “n” 的两个字符，而 “\n” 则是一个字符，表示一个换行。正则表达式通常在 Python 代码中都是用这种 raw 字符串表示。

常规字符串 Raw 字符串 “ab*” r”ab*” “\\section” r”\section” “\w+\s+\1” r”\w+\s+\1” 方法/属性作用 match() 决定 RE 是否在字符串刚开始的位置匹配 search() 扫描字符串，找到这个 RE 匹配的位置 findall() 找到 RE 匹配的所有子串，并把它们作为一个列表返回 finditer() 找到 RE 匹配的所有子串，并把它们作为一个迭代器返回

如果没有匹配到的话，match() 和 search() 将返回 None。如果成功的话，就会返回一个 MatchObject 实例，其中有这次匹配的信息：它是从哪里开始和结束，它所匹配的子串等等。

match是从字符串的开始匹配，如果匹配失败就返回None
search是在整个字符串中匹配。

比较详细Python正则表达式操作指南(re使用)

0 0