Python 爬取蜂鸟网的照片。。。

来源：互联网发布：淘宝抢拍器哪个最好编辑：程序博客网时间：2024/04/28 20:16

初衷

上次兔子君问如何下载蜂鸟网上图集的一张照片。打开之后，确实无法右键另存为。不应该啊，web上面还没有这么强的技术保护发布的图片。firebug查看，图片的搜索总是指向一个 a标签。这个 a 标签有一个 height：100%。应该是一个遮罩，用来给幻灯片浏览导航使用的。无意中也进行了简单的盗图保护。

下载很简单，不过兔子先生的需求有变，需要下载一个图集，这样右键的行为，显然比较累。唔，想要下载一个图集，写脚本爬虫了。爬一个图集下来，python这方面是好手。

分析

分析页面，每一个图集并不是 ajax 取照片，而是每一张照片一个页面。并且页面的URL地址很规律，某个值依次加一。例如这个图集的所有照片：

http://travel.fengniao.com/slide/334/3344576_1.html#show

http://travel.fengniao.com/slide/334/3344576_2.html#show

都是 3344576_1， 3344576_2有变动，每一图都在一个特有的 img标签里。如下图：

问题的解决思路有了，用 python的 urllib2模块打开 url，这些 url 依次递增1，用 list 解析给 urllib2模块。当得到 web的html之后，再用 BeautifulSoup 解析文档，提取 img 的 url。

主要用到了 urllib2 的urlopen方法，和 BeautifulSoup 的findAll方法和 tag对象获取属性的方法。对于 BeautifulSoup 的使用方法，可以参考这个 Python BeautifulSoup 简单笔记。

# target url# http://travel.fengniao.com/slide/334/3344576_%d.html# target picture# <img src="http://img2.zol.com.cn/product/101/538/ceDuLihKRGmck.png" name="img_share" id="mainPic" width="449" height="636" alt="">import urllib2from BeautifulSoup import BeautifulSoup# get the url of web which has the picture =>url resultsurlList = ['http://travel.fengniao.com/slide/334/3344576_%d.html' % i for i in range(1,40)]imgurl = []# open every url via urllib2,get the img tag via BeautifulSoupfor i in urlList:html = urllib2.urlopen(i)soup = BeautifulSoup(html)imgsResult = soup.findAll('img',id="mainPic")# imgurl.append([img['src'] for img in imgsResult])imgurl.append(imgsResult[0]['src'])# the resultprint imgurl

注意事项：

用了一个 list 解析获取每一个对应的 web url urlList =['http://travel.fengniao.com/slide/334/3344576_%d.html' % i for i in range(1,40)]

BeautifulSoup 的findAll方法中 name是 python中的保留字，应此用 id来查找确定元素。得到的元素是一个 BeautifulSoup Result，可以用 list的方法，找到img，则是 BeautifulSoup Tag对象，直接读取属性。

最后得到的是一个含有目标照片的 url 地址集合。

BeautifulSoup 的性能一般。居然用了15s。或者我的方法还有待改善。结果如图：

改进

得到地址之后，用软件批量下载就OK了。不过既然是爬虫，得到数据之后，也可以通过python的模块建立目录保存下载的图片。这方面就留着以后改进了。

原文地址：Python 爬取蜂鸟网的照片。。。