Python正则表达式

来源：互联网发布：vip视频解析端口原理编辑：程序博客网时间：2024/06/06 12:24

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配；python从1.5开始提供了re模块，包含perl风格正则表达式

re.match函数

次函数尝试从字符串的气势位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。语法：

re.match(pattern, string, flags=0)

其中pattern代表匹配的正则表达式；string代表要匹配的字符串；flags标识位，用于控制正则表达式的匹配方式，如大小写，多行匹配等

匹配成功re.match()方法返回一个匹配的对象，否则返回none；可以使用group(num)或者groups()匹配对象函数来获取匹配表达式

>>> import re>>> print(re.match('www','www.xxx.com').span())(0, 3)>>> print(re.match('com','www.xxx.com'))None

例子2

[root@centos7 ~]# vim 1.py#!/usr/bin/env pythonimport reline1='china is bigger than usa'match1 = re.match(r'(.*) is (.*?) .*',line1,re.M|re.I)if match1:    print (match1.group())    print(match1.group(1))    print(match1.group(2))else:    print("no match!")

结果

[root@centos7 ~]# ./1.py  china is bigger than usachinabigger

re.search方法

该方法扫描整个字符串并返回第一个成功的匹配，语法：

re.search(pattern, string, flags=0)

pattern：匹配的正则表达式

string：要匹配的字符串

flags：标志位，控制正则表达式匹配方式，如：是否区分大小写，多行匹配等等

匹配成功返回一个匹配的对象，否则返回none

也可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式

>>> import re>>> print(re.search('www','www.xxx.com').span())(0, 3)>>> print(re.search('com','www.xxx.com').span())(8, 11)

另一例子

[root@centos7 ~]# vim 1.py#!/usr/bin/env pythonimport reline1='china is bigger than usa'match1 = re.search(r'(.*) is (.*?) .*',line1,re.M|re.I)if match1:    print (match1.group())    print(match1.group(1))    print(match1.group(2))else:    print("no match!")

结果

[root@centos7 ~]# ./1.py  china is bigger than usachinabigger

re.match和re.search区别

re.match之匹配字符串的开始，否则返回none；而re.search匹配整个字符串，直到找到一个匹配

检索和替换

python的re模块提供了se.sub用于替换字符串中的匹配项，语法：

re.sub(pattern, rep, string, count=0)

pattern：正则中的模式字符串

rep:替换的字符串，也可以为一个函数

string；要被炒找替换的原始字符串

count:模式匹配后替换的最大次数，0表示替换所有

>>> import re>>> phone='010-8888 8888' # a phone>>> num = re.sub(r'#.*$',"",phone)>>> print(num)010-8888 8888>>> num = re.sub(r'\D',"",phone) >>> print(num)                  01088888888

rep是一个函数情况

>>> import re>>> def dou(match1):                      ...     value = int(match1.group('value'))...     return str(value * 2)             ... >>> s = 'abc123xyz456'                    >>> print(re.sub('(?P<value>\d+)',dou,s))abc246xyz912

正则表达式修饰符

正则表达式可以包含可选的修饰符控制正则匹配；多个标识符使用|隔开

修饰符描述re.I使匹配对大小写不敏感re.L做本地化识别（locale-aware）匹配re.M多行匹配，影响 ^ 和 $re.S使 . 匹配包括换行在内的所有字符re.U根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.re.X该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

模式字符串使用特殊的语法表示一个正则表达式

字母和数字表示他们自身；多数字母和数字前加一个反斜杠时有不同的含义；

标点符号只有被转义是才匹配自身，否则表示特殊含义；反斜杠本身要反斜杠来转义；

由于正则表达式通常都包含反斜杠，所以可以使用原始字符串匹配，模式元素如r'/t'，等价于'//t'匹配相应的特殊字符

模式元素

模式描述^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。[...]用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'[^...]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。re*匹配0个或多个的表达式。re+匹配1个或多个的表达式。re?匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式re{ n}re{ n,}精确匹配n个前面表达式。re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式a| b匹配a或b(re)G匹配括号内的表达式，也表示一个组(?imx)正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。(?-imx)正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。(?: re)类似 (...), 但是不表示一个组(?imx: re)在括号中使用i, m, 或 x 可选标志(?-imx: re)在括号中不使用i, m, 或 x 可选标志(?#...)注释.(?= re)前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。(?! re)前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功(?> re)匹配的独立模式，省去回溯。\w匹配字母数字\W匹配非字母数字\s匹配任意空白字符，等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字，等价于 [0-9].\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c\z匹配字符串结束\G匹配最后匹配完成的位置。\b匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。\B匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。\n, \t, 等.匹配一个换行符。匹配一个制表符。等\1...\9匹配第n个分组的内容。\10匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

一些实例

字符实例

实例描述python匹配 "python".[Pp]ython匹配 "Python" 或 "python"rub[ye]匹配 "ruby" 或 "rube"[aeiou]匹配中括号内的任意一个字母[0-9]匹配任何数字。类似于 [0123456789][a-z]匹配任何小写字母[A-Z]匹配任何大写字母[a-zA-Z0-9]匹配任何字母及数字[^aeiou]除了aeiou字母以外的所有字符[^0-9]匹配除了数字外的字符特殊例子

实例描述.匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。\d匹配一个数字字符。等价于 [0-9]。\D匹配一个非数字字符。等价于 [^0-9]。\s匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。\w匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。\W匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

0 0