正则表达式的学习笔记

来源：互联网发布：牺牲西安以东知乎编辑：程序博客网时间：2024/06/15 05:25
正则表达式：\d 匹配一个数字\w 匹配一个字母或者数字\s 匹配一个空格. 匹配任意字符* 匹配任意个数字符，包括0个？匹配0个或1个字符+ 匹配至少一个字符{n} 匹配n个字符{n,m} 匹配n到m个字符特殊字符要用'\'转义例子：\d{3}\s+\d{3,8}表示匹配 010 45613278456  78945612...\d{3}\-\d{3,8}表示匹配010-12345678[]表示范围{2}表示重复次数{0,9}0-9次可以匹配一个数字字母或者下划线[0-9a-zA-Z\_]可以匹配至少由一个数字字母或者下划线组成的字符串[0-9a-zA-Z\_]可以匹配由字母或下划线开头，后接任意个(可以为0)由一个数字、字母或者下划线组成的字符串[a-zA-Z\_][0-9a-zA-Z\_]*在上面的基础上添加字数限制即20个字符[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}A|B匹配A或B^表示行的开头表示出了abc之外[^abc]$表示行的结束re模块import re表示判断正则表达式是否匹配，匹配成功则返回一个match对象，否则返回Nonere.match(r'\d{3}\d{3,8}$','010-12345')切分字符串'a b  c'.split(' ')加上正则表达式可以识别连续空格'a b  c'.split(r'\s+','a b  c')也可以分割逗号re.split(r'[\s\,]+', 'a,b, c  d')也可以识别分号re.split(r'[\s\,\;]+', 'a,b;; c  d')用group提取字串：m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')m.group(0)'010-12345'm.group(1)'010'm.group(2)'12345'在提取的结果之中，group(0)永远表示提取的元字符串，之后的group(1)...表示字串贪婪匹配，即默认情况下匹配尽可能多的字符，下例中\d+即贪婪模式 re.match(r'^(\d+)(0*)$', '102300').groups()('102300', '')非贪婪匹配，后面加？re.match(r'^(\d+？)(0*)$', '102300').groups()('1023', '00')使用编译后的正则表达式对象来提高速率import re# 编译re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')# 使用：re_telephone.match('010-12345').groups()('010', '12345')re_telephone.match('010-8086').groups()('010', '8086')第二个参数表示大小写都可以re_csvt = re.compile(r'csvt',re.I)findall ，search ，match的区别比如str = ’cabcabc abc'import rea = r'cabcabc abc're.match(a,str)结果为nonematchmatch 尝试从字符串的起始位置匹配一个模式，匹配成功则返回对象，否则返回nonematch.group()返回匹配对象re.findall(a,str)结果为['abc','abc','abc']扫描整个字符串把所有符合的结果以列表的形式呈现出来re.finditer返回一个迭代器对象保留反斜杠字符：re.findall(r'csvt.net',s,re.S)re.search(a,str)结果为：<_sre.SRE_Match object at 0x0086FA30>>>> p = re.search(a,'cabcabc abc')>>> p.group(0)'abc'扫描整个字符串并返回第一个成功的匹配的对象，否则为none匹配以下email地址：someone@gmail.combill.gates@microsoft.comr'^(\w+\.?\w+)@(\w+\.\w+)$'?表示重复前面\w\.0次或者1次，即可有可无替换方法subrs = r'c..t'rs.sub(rs,'python','csvt cdgt cmyt cccc')>>>'python pyhton python cccc'显示替换次数rs.subn(rs,'python','csvt cdgt cmyt cccc',3)>>>'python pyhton python cccc'对于多行字符串re.findall(r,s,re.M)对于多行的正则re.findall(r,s,re.X)括号分组，优先返回括号里的值r1 = r"hello src=(.+) yes"
0 0