scrapy学习系列0——scrapy概述
来源:互联网 发布:laravel nginx伪静态 编辑:程序博客网 时间:2024/06/03 18:30
网络爬虫(web crawler, spider)就是一个按照一定的规则在网络上爬行的机器人,在爬行的时候搜集一些信息。
爬虫由两部分构成,一是下载web页面,有很多问题需要解决,比如如何最大限度地利用本地带宽,如何针对不同的web站点进行调试以减轻对方服务器的负载,二是对获取的页面的分析,这也是一个复杂的过程。
scrapy是用python写的一个web crawler框架,简单轻巧,并且非常方便,整体架构图如下:
绿线是数据流向,首先从URL开始,Scheduler会将其交给Downloader进行下载,下载之后会交给Spiders进行分析,分析的结果有两类,一类是要继续抓取的链接,会交给Scheduler,另一种是需要保存的数据,它们则被送到 Item Pipeline ,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。
scrapy使用了Twisted这个异步网络库来处理网络通信。
0 0
- scrapy学习系列0——scrapy概述
- scrapy 概述
- scrapy学习——选择器
- 【Scrapy】Scrapy学习(一)——入门示例
- 【Scrapy】Scrapy学习(二)——基本概念
- scrapy学习笔记——scrapy目录含义
- Scrapy学习笔记(0)---Scrapy一瞥
- 【scrapy】学习Scrapy入门
- <scrapy>scrapy入门学习
- 【scrapy】学习Scrapy入门
- scrapy学习——xpath的学习
- Scrapy的学习——安装介绍
- scrapy学习笔记——安装
- 学习scrapy——介绍&安装
- Scrapy学习笔记(4)—Spider
- Scrapy学习
- scrapy学习
- Scrapy学习
- windows7 64bit 环境下的bat档
- Spring + Cxf 总结
- 窗口在掉标题栏不显示, 最小化后左下角有残留的问题
- MFC(VS2010) + OGRE 环境搭建
- android developer tips---干掉adb侵入者命令和activity中获取控件宽高方法
- scrapy学习系列0——scrapy概述
- 空间曲线旋转
- 成功的关键是机会
- 第十六周OJ项目D:指针引出奇数因子
- tokumx的安装和使用
- 武新:新型MPP数据库将支撑起大数据时代
- 版本控制软件的发展史
- svn cleanup failed–previous operation has not finished; run cleanup if it was interrupted
- 16周项目2--字符串(数组名作形参)