简单爬虫源码，下载指定网页所有图片

来源：互联网发布：mac 鼠标指针小手编辑：程序博客网时间：2024/04/28 01:32

以下是源码，参考的是虫师写的简单爬虫的实现，虫师教程太老，导致范例跑不起来。原因是里面的网址404了。必须要正则能够搜索到图片。

本文范例所用网址里面的图片命名是 http://tb.himg.baidu.com/sys/portrait/item/33a5786c3936343937303734355a33

#-*- coding:utf-8 -*-import reimport urllibdef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    reg = r'src="(http://.*?)"'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        print x        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1        print x    return imglisthtml = getHtml("http://tieba.baidu.com/p/4817501655")getImg(html)

运行以上代码就会把网址里的所有jpg图片下载到本地目录也就是和程序文件同目录下

0 0