程序博客网 > laravel nginx伪静态

scrapy学习系列0——scrapy概述

来源：互联网发布：laravel nginx伪静态编辑：程序博客网时间：2024/06/03 18:30

网络爬虫（web crawler, spider）就是一个按照一定的规则在网络上爬行的机器人，在爬行的时候搜集一些信息。

爬虫由两部分构成，一是下载web页面，有很多问题需要解决，比如如何最大限度地利用本地带宽，如何针对不同的web站点进行调试以减轻对方服务器的负载，二是对获取的页面的分析，这也是一个复杂的过程。

scrapy是用python写的一个web crawler框架，简单轻巧，并且非常方便，整体架构图如下：

scrapy_architecture

绿线是数据流向，首先从URL开始，Scheduler会将其交给Downloader进行下载，下载之后会交给Spiders进行分析，分析的结果有两类，一类是要继续抓取的链接，会交给Scheduler，另一种是需要保存的数据，它们则被送到 Item Pipeline ，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还可以安装各种中间件，进行必要的处理。

scrapy使用了Twisted这个异步网络库来处理网络通信。

0 0

laravel nginx伪静态

laravel nginx伪静态

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子档案和工龄不符怎么办身份证复印丢了怎么办研二考上公务员怎么办个体户不发工资怎么办个税逾期申报怎么办个税零申报逾期罚款怎么办地税申报未缴款怎么办个税没有申报怎么办? 卖衣服业绩不好怎么办五险一金断交5年怎么办不敢给客户打电话怎么办猎头网搜找不到怎么办自保件退保佣金怎么办不想上班怎么办的理由通知面试不想去怎么办催收打单位电话怎么办社恐不敢找工作怎么办香港通行证过期了怎么办港奥通行证过期怎么办港澳台通行证过期了怎么办苹果id退款失败怎么办苹果退款没资格怎么办公路车刹不住怎么办哈罗电动车怎么办月卡自行车向左倒该怎么办骑电动车腿冷怎么办骑自行车身体歪怎么办骑单车膝盖酸痛怎么办骑自行车大腿痛怎么办骑单车屁股疼怎么办骑山地车手腕疼怎么办硅藻泥赃了怎么办人事专员没经验怎么办分不清手动挡位怎么办? 科目三练车加减档老挂错怎么办两个面试都通过怎么办吃饭禁忌破了怎么办社团招新困难怎么办社团收集材料困难怎么办离职后怎么办社保卡工作后怎么办社保卡