用python写的多线程网页爬虫
来源:互联网 发布:淘宝客服能在家里做吗 编辑:程序博客网 时间:2024/06/04 15:49
学习python才一个星期,学了简单的语法之后,发现python太好用了,一个简单的爬取网页方法仅仅只需要两三行代码。当然,要做一只大型的真正意义上的爬虫还是相当有难度的,为了进一步的熟悉python的一些性质,于是写了一个下载http://desk.zol.com.cn上面壁纸的爬虫,其中使用了HTMLParser模块方法分析页面,从而解析出每一页的入口地址,再根据入口地址分析内页的图片地址,解析内页地址使用了多线程,下载图片也是用的多线程,为了测试多线程爬虫的性能,本程序使用了50个线程分析内页图片地址,100个线程下载图片,整个过程只需要动几下鼠标,分分钟美女图片想要多少有多少,最后记录一下大致数据:
下载图片数量:1000张左右
线程使用:50个线程分析地址+100个线程下载图片+1个主线程
下载耗时:15分钟左右
下载速度:67张/分
平均网速:1M/s
上面只是大致数据,但是使用多线程之后,下载速度确实提高了数倍。好了,闲话少说,下面上酸菜:
源码下载地址:http://download.csdn.net/detail/u010101067/8370785
0 0
- 用python写的多线程网页爬虫
- python写的网页爬虫-scrapy
- python 用爬虫写网页测试
- 用python写网络爬虫-下载网页
- python多线程爬虫抓取网页
- 多线程获取豆瓣网页的网络爬虫(Python实现)
- 《用python写网络爬虫》--网页抓取方法
- 用python写爬虫
- python写爬虫技巧(五):简单的百度贴吧网页爬虫
- 用python写爬虫的一些技巧
- 用python写爬虫的一些技巧
- 用python写的一次爬虫经历
- 用Python写一个简单的爬虫
- 用python语言写的简易爬虫
- WSWP(用 python写爬虫) 笔记三:为爬虫添加缓存网页内容功能
- 我写的第一个用Python写的爬虫
- 用java写了一个非常简单的网页爬虫
- python 3.5 写的爬虫
- 使用 UI Automation 实现自动化测试--4.1
- linus教你写链表
- EBS 博客
- CSS3+HTML5表单
- poj 2513 Colored Sticks
- 用python写的多线程网页爬虫
- tar、tar.gz、tar.bz2的区别与用法
- MATLAB学习笔记(二):符号计算(创建符号对象)
- Socket通信基础——基于TCP的用户登录
- POJ 3624 01背包
- centos mysql安装
- Lexicographically minimum string rotation
- JavaScript系列二:变量、数组、流程控制、函数以及事件响应
- 1501171340-蓝桥杯-算法提高 逆序排列