Python批量下载图片
来源:互联网 发布:商客软件下载 编辑:程序博客网 时间:2024/05/01 18:32
爬取图片可真的是一个可遇不可求的机会。
有需求就会动力。
目标:爬取某个网站上n多页的链接,每个链接有n多张图片,每一页对应一个文件夹,每个文件夹包含n个链接所对应的文件夹。
步骤1:获得网页的所有链接,访问所有链接,获得链接里的图片地址。
这一步通过上一篇文章的学习,同时写好正则匹配,就可以简单地完成。
步骤2:根据图片地址下载图片。
下载jpg格式的图片其实很容易。
1 socket = urllib2.urlopen(url)2 data = socket.read()3 with open(path, "wb") as jpg:4 jpg.write(data)5 socket.close()
其中url为图片地址,path为保存路径。
完成这一步之后,简单的批量下载图片功能就完成了。
但是,下载的过程中有几个问题。
1、下载速度慢。
我们打开网站的时候看到图片的速度在网速不是太慢的情况下其实也不慢,但是用这种方法下载一张图片要等很久,有时却很快。
2、下着下着就卡在那里了。
它就是卡在那里了,不知道要等到什么时候报错。
基于这两个问题,我检索了一些资料,其中这篇文章对这个情况有比较好的说明。
后改进如下。
1 #设定超时时间,单位为秒,放在程序开头即可 2 timeout = 60 3 socket.setdefaulttimeout(timeout) 4 5 #下载图片的时候 6 time.sleep(10)#先sleep,再读取数据 7 socket = urllib2.urlopen(urllib2.Request(imgurl)) 8 data = socket.read() 9 socket.close()10 ...
其实这个改进当时在程序中的体现不是很明显,但是后来我又加入了一个东西:多线程。
python的多线程有几种方法可以实现,通过这篇博文可以对此有所了解。
在这里我采用继承threading.Thread的方法实现多线程。
重载run方法。我这里是每下载一个图片就开一个线程(好像不是太好,囧……)。
1 thread = Download()2 thread.imgurl = imgurl3 thread.path = path4 thread.start()
这个多线程用上以后,整个程序简直就像开足了马力,开始大力地下载。没一会功夫就下载了100多M的图片!
其实我一开始是有顾虑一个问题的,就是为什么线程sleep的时候能够偷偷地占用系统的时间?看看这篇文章的实验。
也就是说,10条线程每个sleep10秒,结果也只是花了差不多10秒的时间。
图片的下载速度很快,虽然中途有一些处理异常的网址,但是速度飞一般的快。(后来增加了一些异常处理)
很快,开始出现异常了,大量的图片下载失败。
研究了很久之后才发现,存储空间不足……
于是,搬到一个10G空闲的分区,开始下载,改善异常处理。
最终完成目标的时候大概完成了8G的下载量。不知道是不是流量太大了,今天老是断网……
同时尝试了视频的下载,这个功能还有待发掘。
- Python批量下载图片
- python批量下载图片
- python 批量下载图片
- Python批量下载图片
- python下载批量图片
- python批量下载图片
- PYthon 批量下载网页图片
- PYthon 批量下载网页图片
- python 爬虫批量下载图片
- 用python批量下载图片
- python批量下载美女图片
- 用python批量下载图片
- python实现批量下载贴吧图片
- 批量下载豆瓣相册图片python脚本
- 【Python】网络爬虫-批量下载图片
- python批量下载网页图片及列表
- python脚本编程:批量下载指定页面图片
- Python小脚本 002 批量下载网页链接中的图片
- jfreechart生成柱状图与饼状图(入门)
- linux patch 补丁
- Oracle 通过dos命令来实现建库建表
- sqlserver调用webservice发送短信
- android网络编程所涉及到的知识
- Python批量下载图片
- 安装iphone sdk 4.1
- 在 Linux 下用户空间与内核空间数据交换的方式
- IDL Viewer 应用模版介绍 (版本号更新为1.1)
- 《老罗Android开发视频教程》老罗来交国庆的答卷了
- hdu 2191悼念512汶川大地震遇难同胞——珍惜现在,感恩生活 (多重背包)
- Linux内核学习的一些国外网站 .
- Redis Transactions
- LUID_AND_ATTRIBUTES