python多线程+队列下载资源
来源:互联网 发布:淘宝评价管理登录 编辑:程序博客网 时间:2024/05/22 16:50
网上有一些公开课视频教程还有课件啥的,手动下太慢了,写个python下载。我想尽可能的做到通用性,以后可以直接用的,代码如下,抛砖引玉,欢迎建议和意见:
import urllib.requestimport reimport queueimport threadingimport osclass download(threading.Thread):def __init__(self,que):threading.Thread.__init__(self)self.que=quedef run(self):while True:if not self.que.empty():print('-----%s------'%(self.name))os.system('wget '+self.que.get())else:breakdef startDown(url,rule,num,start,end,decoding=None):if not decoding:decoding='utf8'req=urllib.request.urlopen(url)body=req.read().decode(decoding)rule=re.compile(rule)link=rule.findall(body)que=queue.Queue()for l in link:que.put(l[start:end])for i in range(num):d=download(que)d.start()if __name__=='__main__':url='https://class.coursera.org/algo-004/lecture/index'rule='<a target=\"_new\" href=\".*\"'startDown(url,rule,10,23,-1)
简单说一下:download类继承了threading.Thread类,并重写了run函数,目的是只要队列不为空,则不停的从队列中取出资源真实链接地址调用wget下载,如果为空则退出线程。startDown函数是多线程下载的接口,里面的参数分别为:url--资源的网页,rule--正则表达式匹配方式,num--开启的线程数,start--正则中匹配真实链接的起始位置,end--正则中匹配真实链接的结束位置,decoding--资源页面采用的编码方式,默认是utf8。
下面是我运行时的样子:
好了,下次要下载直接import这个文件就妥了~哈哈~希望得到大家批评,我也希望进步快点~
转载请注明:转自 http://blog.csdn.net/littlethunder/article/details/9396059
- python多线程+队列下载资源
- python 多线程 +队列下载资源
- 多线程下载WEB资源
- 多线程下载资源
- Python+多线程+队列爬虫
- Python资源下载
- 多线程下载服务端图片资源
- Android多线程下载服务器资源
- JAVA 多线程下载单个资源
- Unity多线程资源下载方案
- python实现多线程下载
- python 多线程下载
- python多线程下载实现
- Python多线程下载(2)
- python多线程下载器
- Python实现多线程下载
- python多线程下载
- Python实现多线程下载
- 37、自定义字体
- http://beyondvincent.com/2013/07/18/resources-for-mac-and-ios-developers/
- HDU-2036
- 中国软件领域院士及其成就
- linux/eclipse/c++ 动态库的创立与调用
- python多线程+队列下载资源
- HDU-2039
- 输出HTML的Servlet
- HDU-2040
- 提高php代码质量 36计
- UVA10161Ant on a Chessboard
- servlet相关知识笔记
- Code Fragment-Message Pool的实现与处理
- 2013-07-18第一次Product BackLog会议