scrapy学习笔记

来源:互联网 发布:centos下搭建hadoop 编辑:程序博客网 时间:2024/06/18 14:58

Scrapy是一个爬虫框架,它包含engine、scheduler、downloader、spider和pipeline。它们的关系如图所示





Spider就是配置爬虫、解析网页的组件。可以用Selector内置的xpath、css、re来解析页面通过extract()函数返回unicode字符串列表,extract_first()返回unicode字符串。

 

Pipeline 就是存储数据的组件。在items.py里定义的item,pipeline.py处理返回的item,在settings.py里边激活pipeline。

 

Downloader Middlewares 处理产生的Request 和 Response,可增加useragent池、添加ip代理等功能

 

Spider Middlewares处理产生的request、response和item,可以增加cookie处理等功能

 

Request代表一个http请求,通常在Spider类中产生,然后传递给downloader,返回一个Response对象。


Request构造参数有url、callback、method、meta、body、headers、cookies、encoding、priority、don’t_filter、errback:

url是请求的网址。

callback是处理response的回调函数。

meta可以设置是否允许重定向、是否retry,cookiejar、下载超时、proxy

 

FormRequest是Request的子类,专门处理HTML表单,在formdata中添加post数据。

 

Response对象代表http响应,通常是downloader返回,交由Spider处理。

参数有url、headers、status、body、meta、flags


阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 昭通市人力资源社会保障局 云南昭通镇雄女人不能要 云南昭通镇雄 昭通邮政编码 昆明到昭通多少公里 云南昭通邮编 昭通学院教务处系统登录 昭通住房公积金 昭通旅游景点排名榜 昭通人力资源和社会保障网 云南省昭通市 昭通学院教务系统 云南昭通穷到什么样子 昭通人事人才网 昆明到昭通汽车 昭通市住房公积金中心 昭通市第一人民医院 昭通住房公积金查询 昭通信息港首页 绍通 召通 照通 邵通市 韶通 邵通 李定云抖音云南昭通 昭陵 沈阳北陵公园 昭陵博物馆 昭陵是谁的墓 北陵 沈阳北陵 礼泉昭陵 唐昭陵 沈阳昭陵 沈阳北陵公园图片 清昭陵 昭陵旅游 昭陵博物馆旅游 唐太宗昭陵 昭陵碑录