Python 网络爬虫-下载图片

来源:互联网 发布:java 长连接 框架 编辑:程序博客网 时间:2024/06/05 08:19
#!/usr/bin/python#-*- coidng:UTF-8-*-'''Created on 2015-1-19@author: huangpeng03'''#coding=utf-8import urllibimport redef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)
默认下载路径是工程目录
.+? 是懒惰模式匹配  .+的意思是.至少含有一个,加个问号表示匹配成功一次后就不往后走了
                                             
0 0