用python写的多线程网页爬虫

来源:互联网 发布:淘宝客服能在家里做吗 编辑:程序博客网 时间:2024/06/04 15:49

        学习python才一个星期,学了简单的语法之后,发现python太好用了,一个简单的爬取网页方法仅仅只需要两三行代码。当然,要做一只大型的真正意义上的爬虫还是相当有难度的,为了进一步的熟悉python的一些性质,于是写了一个下载http://desk.zol.com.cn上面壁纸的爬虫,其中使用了HTMLParser模块方法分析页面,从而解析出每一页的入口地址,再根据入口地址分析内页的图片地址,解析内页地址使用了多线程,下载图片也是用的多线程,为了测试多线程爬虫的性能,本程序使用了50个线程分析内页图片地址,100个线程下载图片,整个过程只需要动几下鼠标,分分钟美女图片想要多少有多少,最后记录一下大致数据:

下载图片数量:1000张左右

线程使用:50个线程分析地址+100个线程下载图片+1个主线程

下载耗时:15分钟左右

下载速度:67张/分

平均网速:1M/s

上面只是大致数据,但是使用多线程之后,下载速度确实提高了数倍。好了,闲话少说,下面上酸菜:

源码下载地址:http://download.csdn.net/detail/u010101067/8370785

 

 

0 0
原创粉丝点击