程序博客网 > 什么是网络编辑

Scrapy源码阅读分析<一>

来源：互联网发布：什么是网络编辑编辑：程序博客网时间：2024/06/04 20:00

介绍

Scrapy是一个基于Python编写的一个开源爬虫框架，它可以帮你快速、简单的方式构建爬虫，并从网站上提取你所需要的数据。

这里不再介绍Scrapy的安装和使用，本系列主要通过阅读源码讲解Scrapy实现思路为主。如果有不懂如何使用的同学，请参考官方网站或官方文档学习。（写本篇文章时，Scrapy版本为1.4）

简单来说构建和运行一个爬虫只需完成以下几步：

使用scrapy startproject创建爬虫模板或自己编写爬虫脚本
爬虫类继承scrapy.Spider，重写parse方法
parse方法中yield或return字典、Request、Item
使用scrapy crawl <spider_name>或scrapy runspider <spider_file.py>运行

经过简单的几行代码，就能采集到某个网站下一些页面的数据，非常方便。

但是在这背后到底发生了什么？Scrapy到底是如何帮助我们工作的呢？

架构

来看一看Scrapy的架构图：

核心组件

Scrapy有以下几大组件：

Scrapy Engine：核心引擎，负责控制和调度各个组件，保证数据流转；
Scheduler：负责管理任务、过滤任务、输出任务的调度器，存储、去重任务都在此控制；
Downloader：下载器，负责在网络上下载网页数据，输入待下载URL，输出下载结果；
Spiders：用户自己编写的爬虫脚本，可自定义抓取意图；
Item Pipeline：负责输出结构化数据，可自定义输出位置；

除此之外，还有两大中间件组件：

Downloader middlewares：介于引擎和下载器之间，可以在网页在下载前、后进行逻辑处理；
Spider middlewares：介于引擎和爬虫之间，可以在调用爬虫输入下载结果和输出请求/数据时进行逻辑处理；

数据流转

按照架构图的序号，数据流转大概是这样的：

引擎从自定义爬虫中获取初始化请求（也叫种子URL）；
引擎把该请求放入调度器中，同时引擎向调度器获取一个待下载的请求（这两部是异步执行的）；
调度器返回给引擎一个待下载的请求；
引擎发送请求给下载器，中间会经过一系列下载器中间件；
这个请求通过下载器下载完成后，生成一个响应对象，返回给引擎，这中间会再次经过一系列下载器中间件；
引擎接收到下载返回的响应对象后，然后发送给爬虫，执行自定义爬虫逻辑，中间会经过一系列爬虫中间件；
爬虫执行对应的回调方法，处理这个响应，完成用户逻辑后，会生成结果对象或新的请求对象给引擎，再次经过一系列爬虫中间件；
引擎把爬虫返回的结果对象交由结果处理器处理，把新的请求对象通过引擎再交给调度器；
从1开始重复执行，直到调度器中没有新的请求处理；

核心组件交互图

我在读完源码后，整理出一个更详细的架构图，其中展示了更多相关组件的细节：

这里需要说明一下图中的Scrapyer，其实这也是在源码的一个核心类，但官方架构图中没有展示出来，这个类其实是处于Engine、Spiders、Pipeline之间，是连通这3个组件的桥梁，后面在文章中会具体讲解。

核心类图

涉及到的一些核心类如下：

其中标没有样式的黑色文字是类的核心属性，黄色样式的文字都是核心方法。

可以看到，Scrapy的核心类，其实主要包含5大组件、4大中间件管理器、爬虫类和爬虫管理器、请求、响应对象和数据解析类这几大块。

阅读全文

0 0

什么是网络编辑

什么是网络编辑

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子珠钉钉匣布钉钉钮钉盖钉沙机钉宫五萌什么是柳钉钉宫六萌钉宫理慧钉宫圆九齿钉耙锤钉耙剑锤钉耙钉耙钉耙图片锤剑钉耙钉耙app 九齿钉耙多重九齿钉耙为什么排第一锤钉耙剑哪里多锤钉耙剑是什么妖怪锤钉耙剑在哪里打猪八戒九齿钉耙图片九齿钉耙和金箍棒哪个厉害锤钉耙剑哪里多跑跑车钉螺怎么吃钉螺图片香辣钉螺炒钉螺钉螺的危害钉螺为什么还有人吃血吸虫钉螺图片炒钉螺的做法麻辣钉螺麻辣钉螺的做法钉钉破解钉钉如何退出企业钉钉下载手机版钉卷机钉邮