scrapy学习系列0——scrapy概述

来源:互联网 发布:laravel nginx伪静态 编辑:程序博客网 时间:2024/06/03 18:30

网络爬虫(web crawler, spider)就是一个按照一定的规则在网络上爬行的机器人,在爬行的时候搜集一些信息。

爬虫由两部分构成,一是下载web页面,有很多问题需要解决,比如如何最大限度地利用本地带宽,如何针对不同的web站点进行调试以减轻对方服务器的负载,二是对获取的页面的分析,这也是一个复杂的过程。

scrapy是用python写的一个web crawler框架,简单轻巧,并且非常方便,整体架构图如下:

scrapy_architecture

绿线是数据流向,首先从URL开始,Scheduler会将其交给Downloader进行下载,下载之后会交给Spiders进行分析,分析的结果有两类,一类是要继续抓取的链接,会交给Scheduler,另一种是需要保存的数据,它们则被送到 Item Pipeline ,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。

scrapy使用了Twisted这个异步网络库来处理网络通信。

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 档案和工龄不符怎么办 身份证复印丢了怎么办 研二考上公务员怎么办 个体户不发工资怎么办 个税逾期申报怎么办 个税零申报逾期罚款怎么办 地税申报未缴款怎么办 个税没有申报怎么办? 卖衣服业绩不好怎么办 五险一金断交5年怎么办 不敢给客户打电话怎么办 猎头网搜找不到怎么办 自保件退保佣金怎么办 不想上班怎么办的理由 通知面试不想去怎么办 催收打单位电话怎么办 社恐不敢找工作怎么办 香港通行证过期了怎么办 港奥通行证过期怎么办 港澳台通行证过期了怎么办 苹果id退款失败怎么办 苹果退款没资格怎么办 公路车刹不住怎么办 哈罗电动车怎么办月卡 自行车向左倒该怎么办 骑电动车腿冷怎么办 骑自行车身体歪怎么办 骑单车膝盖酸痛怎么办 骑自行车大腿痛怎么办 骑单车屁股疼怎么办 骑山地车手腕疼怎么办 硅藻泥赃了怎么办 人事专员没经验怎么办 分不清手动挡位怎么办? 科目三练车加减档老挂错怎么办 两个面试都通过怎么办 吃饭禁忌破了怎么办 社团招新困难怎么办 社团收集材料困难怎么办 离职后怎么办社保卡 工作后怎么办社保卡