python正则表达式学习笔记

来源：互联网发布：淘宝二级域名开通编辑：程序博客网时间：2024/05/21 09:51

边界匹配：
使用^和$放在开头和结尾进行全匹配。

^$与\A \Z的区别：^从行开始处匹配，$从行结束处开始匹配；\A从字符串开始处匹配，\Z从字符串结束处匹配。

分组匹配：

使用()进行分组，使用\number对之前的分组进行使用，

例如：

import rema = re.match(r'<([\w]+>)\1','<book>book>')

使用(?P<name>)对分组取别名，方便在后续的使用。使用的格式为(?P=name)

例如：

ma = re.match(r'<(?P<mark1>[\w]+>)[\w]+</(?P=mark1)','<book>python</book>')

re模块的其他函数：

search函数。

str1 = 'wtf11111'str2 = 'numa = 9, numb = 10'info = re.search(r'\d+',str1)info.group()>>>'11111'info = re.search(r'\d+',str2)info.group()>>>'9'

可知search函数无法找到所有的数字，所可以使用findall来找到所有数字。

info = re.findall('\d+',str2)info>>>['9','10']sum([int(x) for x in info])>>>19

sub:替换匹配的字符串

sub(pattern,replace,string,count=0,flag=0)

举例来说：

str3 = 'num = 1000'info = re.sub(r'\d+','5000',str3)info>>>'num = 5000'

如果想要实现类似于数字加法的功能，可以使用函数卸载replace的位置。

def add_1(match):val = match.group()num = int(val)+1return str(num)re.sub(r'\d+',add_1,str3)>>>'num = 1001' re.sub(r'\d+',add_1,str3)>>>'num = 1002'

实现文本分割，可用split函数：

str4 = 'classed:C C++ Java python're.split(r':| ', str4) #分割冒号或空格>>>['classes','C','C++','Java','python']

使用python进行简单的网页抓取

import reimport urllib2req = urllib2.urlopen('http://image.baidu.com/')buf = req.read()listurl = re.findall(r'http:.+\.jpg', buf)i = 0for url in listurl:f = open(str(i)+'.jpg','wb')#二进制写入到文件中req = urllib2.urlopen(url)buf = req.read()f.write(buf)i = i + 1f.close()

0 0

python正则表达式学习 笔记

python正则表达式学习笔记