scrapy多爬虫以及爬取速度
来源:互联网 发布:空间绑定域名教程 编辑:程序博客网 时间:2024/06/05 10:16
主要这段时间一直使用的就是scrapy这个框架,因为公司里面需要爬取大量的网站,所以才使用了多爬虫,但是目前测试也只是几十个,一直也想不到更好的方法去同时抓取成千上百个结构不同的网站,所以也很是苦逼的用了scrapy里面的多爬虫,对每个网站分别解析,还好虽然几次改需求但是字段都是统一的,可以很轻松的通过itempipline去入库。 像多爬虫这个东西,我也是参考一些大牛发的博客,文档什么的,是通过创建commands目录来实现多爬虫爬取。 废话不多说,我们创建commands目录的时候必须注意commands和spiders目录是同级的,在commands下面添加一个文件crawlall.py,里面的内容都是固定的。crawl的源码可以在此查看:https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py
步骤就是:
1、mkdir commands
2、commands创建文件crawlall.py,把源码复制粘贴过去
3、不要忘记创建一个_init_文件,这个如果忘了的话也是不行的
4、settings.py目录下创建setup.py,这一步我并没有做,但是好多都说需要写上这一步,我就在这添加上吧。
附上里面的代码
from setuptools import setup, find_packages setup(name='scrapy-mymodule', entry_points={ 'scrapy.commands': [ 'crawlall=cnblogs.commands:crawlall', ], }, )
这个文件的含义是定义了一个crawlall命令,cnblogs.commands为命令文件目录,crawlall为命令名。
5. 在settings.py中添加配置:
COMMANDS_MODULE = 'cnblogs.commands'
这个千万不能忘,settings毕竟掌控着各大文件
然后我们运行代码的时候可以创建一个run.py,附上我的run文件的代码
# coding:utf-8from scrapy import cmdlineimport sys,ossys.path.append(os.path.dirname(os.path.abspath(__file__)))if __name__=="__main__":cmdline.execute(['scrapy','crawlall'])
运行的时候我们只需要运行run.py所有的spider就会跑起来了。
因为文件比较多,所以这时候我们需要在settings下面添加
CONCURRENT_REQUESTS
提高并发数,其实像一些IO密集型什么的我也不是特别理解,也不能跟大家解释了,还有就是把timeout设置的小一些,我当时设置的是30
DOWNLOAD_TIMEOUT=30
配置完这些基本上在速度方面上还是可以的,如果还有更好的方法可以随时给我提,这也只是我的一些理解,如果有不对的地方可以说出来,会及时更正。
阅读全文
1 0
- scrapy多爬虫以及爬取速度
- Scrapy 爬虫框架爬取网页数据
- scrapy定制爬虫-爬取javascript内容
- 爬虫第五战 scrapy小说爬取
- scrapy框架爬虫定时爬取
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介
- Scrapy爬虫教程之URL解析与递归爬取
- Scrapy爬虫教程之URL解析与递归爬取
- scrapy-redis实现爬虫分布式爬取分析与实现
- scrapy-redis实现爬虫分布式爬取分析与实现
- 爬虫系列4:scrapy技术进阶之多页面爬取
- Python 采用Scrapy爬虫框架爬取豆瓣电影top250
- scrapy爬虫实战(二)-------------爬取IT招聘信息
- 手把手教你scrapy + mongodb 爬虫爬取GooglePlay
- Scrapy爬虫(五):有限爬取深度实例
- 爬虫框架scrapy,爬取豆瓣电影top250
- scrapy爬虫第一阶段——爬取多级url
- Python爬虫实战:Scrapy豆瓣电影爬取
- socket获取客户端ip例子
- Spring Cloud Feign fallback错误解决
- spark数据倾斜处理
- Design T-Shirt问题:c++
- DataTables在IE8下报'style' 为空或不是对象错误问题
- scrapy多爬虫以及爬取速度
- springboot(二)添加logback日志
- 关于技术与管理的思考
- div——css渐变线背景
- 同一个tomcat下部署多个项目报错Web app root system property already set to different value: 'webapp.root'...
- NodeMCU-入门之在线固件构建
- memset函数
- 【Scikit-Learn 中文文档】Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
- 【转载】JSON中 net.sf.json.JSONException: java.lang.NoSuchMethodException异常