简单爬虫源码,下载指定网页所有图片

来源:互联网 发布:mac 鼠标指针小手 编辑:程序博客网 时间:2024/04/28 01:32

以下是源码,参考的是虫师写的简单爬虫的实现,虫师教程太老,导致范例跑不起来。 原因是里面的网址404了。必须要正则能够搜索到图片。

本文范例所用网址里面的图片命名是    http://tb.himg.baidu.com/sys/portrait/item/33a5786c3936343937303734355a33

#-*- coding:utf-8 -*-import reimport urllibdef getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef getImg(html):    reg = r'src="(http://.*?)"'    imgre = re.compile(reg)    imglist = re.findall(imgre,html)    x = 0    for imgurl in imglist:        print x        urllib.urlretrieve(imgurl,'%s.jpg' % x)        x+=1        print x    return imglisthtml = getHtml("http://tieba.baidu.com/p/4817501655")getImg(html)

运行以上代码  就会把网址里的所有jpg图片下载到本地目录也就是和程序文件同目录下





0 0
原创粉丝点击