python正则

来源：互联网发布：软件搬家到sd卡的软件编辑：程序博客网时间：2024/06/06 01:38

https://docs.python.org/2/library/re.html
re 模块提供的三个方法:

import re#pattern    匹配的正则表达式#string 要匹配的字符串。#flags  标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。1re.findall(pattern, string, flags=0) #返回字符串中模式的所有非重叠匹配，作为字符串列表。2re.match(pattern, string, flags=0) #尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。3re.search(pattern, string, flags=0) #扫描整个字符串并返回第一个成功的匹配。

re.sub()方法：

re.sub(pattern, repl, string, count=0)#用于替换字符串中的匹配项。    pattern : 正则中的模式字符串。    repl : 替换的字符串，也可为一个函数。    string : 要被查找替换的原始字符串。    count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。#testweb = 'www.baidu.com # 这是百度,代号007're.sub(r'\D','',web)re.sub(r'a..d','python','abcd adsd dsfg abdf addd en')# 将匹配的数字乘于 2def double(matched):    value = int(matched.group('value'))    return str(value * 2)s = 'A23G4HFD567'print(re.sub('(?P<value>\d+)', double, s))output:A46G8HFD1134

re.compile():

#re.compile(pattern, flags=0) 将正则表达式模式编译为正则表达式对象，可用于使用其匹配（）和search（）方法进行匹配。prog = re.compile(pattern)result = prog.match(string)等价于result = re.match(pattern, string)#testr= r"\d{3,4}-?\d{8}"p_tel = re.compile (r)p_tel.findall("010-12345678")#忽略大小写p = re.compile(r"you",re.I) p.findall("you You YOU yoU YoU yo")#使 . 匹配包括换行在内的所有字符re.findall('www.abc',"www\nabc",re.S)

re.split():

re.split（pattern，string，maxsplit = 0，flags = 0）#按图案的出现拆分字符串。 如果在模式中使用捕获括号，则模式中所有组的文本也作为生成列表的一部分返回。 如果maxsplit不为零，则最多会出现maxsplit拆分，并将该字符串的其余部分作为列表的最后一个元素返回。#testip = "1.2.3.4"ip.split('.')re.split(r'[\+\-\*]','123+34-234*234')

#{n}前的字符出现n次r = r"010-\d{8}"r = r"010-?\d{8}"#*前面字符出现零次或者多次r = r"010-\d*"#+前面字符出现一次或者多次r = r"010-\d+"  #最大匹配r = r"010-\d?" #最小匹配#{m,n}至少有m个重复，至多有n个重复#{0,} 等同于* ; {1,} 等同于+ ; {0,1} 等同于? ;但是最好使用后者

正则表达式修饰符 - 可选标志

re.I    使匹配对大小写不敏感re.L    做本地化识别（locale-aware）匹配re.M    多行匹配，影响 ^ 和 $re.S    使 . 匹配包括换行在内的所有字符re.U    根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.re.X    该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

# . 匹配除 "\n" 之外的任何单个字符。# [.\n] 匹配包括 '\n' 在内的任何字符# \d 所有十进制数 相当于类[0-9]# \D 所有非数字字符 相当于类[^0-9]# \s 所有空白字符 相当于类[\t\n\r\f\v]# \S 所有非空白字符 相当于类[^\t\n\r\f\v]# \w 所有字母数字字符 相当于类[a-zA-Z0-9]# \W 所有非字母数字字符 相当于类[^a-zA-Z0-9]# \[ 或 \\ 可以用于取消所有的元字符

^   匹配字符串的开头$  匹配字符串的末尾。.   匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。[...]   用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'[^...]  不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。re* 匹配0个或多个的表达式。re+ 匹配1个或多个的表达式。re? 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式re{ n}  re{ n,} 精确匹配n个前面表达式。re{ n, m}   匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式a| b    匹配a或b(re)    G匹配括号内的表达式，也表示一个组(?imx)  正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。(?-imx) 正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。(?: re) 类似 (...), 但是不表示一个组(?imx: re)  在括号中使用i, m, 或 x 可选标志(?-imx: re) 在括号中不使用i, m, 或 x 可选标志(?#...) 注释.(?= re) 前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。(?! re) 前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功(?> re) 匹配的独立模式，省去回溯。\A  匹配字符串开始\Z  匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c\z  匹配字符串结束\G  匹配最后匹配完成的位置。\b  匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。\B  匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。\n, \t, 等.  匹配一个换行符。匹配一个制表符。等\1...\9 匹配第n个分组的内容。\10 匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

————–

re.findall('[\u4e00-\u9fa5]+',string)  #匹配中文in python3re.findall('[\x80-\xff]+',string)   #匹配中文in python2

————–

阅读全文

1 0