用python写的多线程网页爬虫

来源：互联网发布：淘宝客服能在家里做吗编辑：程序博客网时间：2024/06/04 15:49

学习python才一个星期，学了简单的语法之后，发现python太好用了，一个简单的爬取网页方法仅仅只需要两三行代码。当然，要做一只大型的真正意义上的爬虫还是相当有难度的，为了进一步的熟悉python的一些性质，于是写了一个下载http://desk.zol.com.cn上面壁纸的爬虫，其中使用了HTMLParser模块方法分析页面，从而解析出每一页的入口地址，再根据入口地址分析内页的图片地址，解析内页地址使用了多线程，下载图片也是用的多线程，为了测试多线程爬虫的性能，本程序使用了50个线程分析内页图片地址，100个线程下载图片，整个过程只需要动几下鼠标，分分钟美女图片想要多少有多少，最后记录一下大致数据：

下载图片数量：1000张左右

线程使用：50个线程分析地址+100个线程下载图片+1个主线程

下载耗时：15分钟左右

下载速度：67张/分

平均网速：1M/s

上面只是大致数据，但是使用多线程之后，下载速度确实提高了数倍。好了，闲话少说，下面上酸菜：

源码下载地址：http://download.csdn.net/detail/u010101067/8370785

0 0