怎样用Python3 写一个爬图片的程序?

来源:互联网 发布:芭碧琪面膜怎么样 知乎 编辑:程序博客网 时间:2024/06/05 16:46

怎样用Python3 写一个爬图片的程序?

参考网页:xiaowanggedege的专栏

缘起于一个小伙伴,在网上发帖求助一段代码,
功能是实现从百度贴吧,爬一个叫杉本有美的日本国际友人的图片。
(声明:本人之前确实不认识这个可爱美丽的女孩子)

浏览了参考网页的资料,发现代码是python2的版本,现修改如下:

import urllib.requestimport redef get_html(url):    page = urllib.request.urlopen(url)    html = page.read()    return htmldef get_img(html):    reg = r'src="(.*?\.jpg)" size='    imgre = re.compile(reg)    html = html.decode('utf-8')    imglist = re.findall(imgre, html)    i = 0    for imgurl in imglist:        urllib.request.urlretrieve(imgurl, '%s.jpg' % i)        i += 1html = get_html('http://tieba.baidu.com/p/4907713304')print(get_img(html))
  • urllib2是Python自带的模块,在python3.x中被改为urllib.request
  • python3.0 中findall模块现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的,
    所以加上一段代码 html = html.decode('utf-8')

细心的朋友可以发现,我的代码和参考资料代码里爬的网页不一样,参考资料里的是http://tieba.baidu.com/p/2166231880
查看网页源码会发现细微的不同,
原网页图片相关html代码

新网页相关html代码

根据二者的不同,修改了此条语句:

reg = r'src="(.*?\.jpg)" size='
原创粉丝点击