Python scrapy基础教程(三)
来源:互联网 发布:unity3d模型动画下载 编辑:程序博客网 时间:2024/05/29 09:09
爬虫最基本的就是对网页的post和get,也就是http的post和get,这样就可以动态实现自己想要那个网页的数据。
scrapy的post和get使用是有一定限制的:
1.如果start_urls不是post接口,可以通过start_urls里面找到接口路径,然后在FormRequest
2.如果start_urls是post接口,只能重定义start_requests方法,定义为post方式。
3.如果get带参数,直接在url参数化即可。
Get带参数
其中,Spider和CrawlSpider都适用
这个比较简单
start_urls带参数也是可以的
如果start_urls是post接口
因为start_requests开始定义是get方法,如果接口是post的,会返回405错误码,所以要重写start_requests
如果start_urls不是post接口
start_urls为一个接收任务接口,为get,程序必需运行获取到这个start_urls的内容后,在parse方法才运行post。
注意:start_urls的链接和parse里面的turl必需有关联才行,如果我把start_urls改为[‘https://www.baidu.com/‘],parse是post不到的。
就是说,scrapy运行必需执行一次start_requests的方法才运行到自己写的方法里去。
scrapy与requests库的post和get对比:
scrapy的post和get在写法上比requests库的要复杂一点。
scrapy必需按照流程一步一步走,虽然可以变动,但大体都是框架式的代码,灵活性低。基本流程:start_urls->start_requests->parse(Spider模式下,CrawlSpider差不了多小)
scrapy分布式爬虫,工作分工明确,而且框架结构,便于维护和管理,利于大型的爬虫
欢迎加入学习交流QQ群:657341423
- Python scrapy基础教程(三)
- Python scrapy基础教程(一)
- Python scrapy基础教程(二)
- Python基础教程学习(三)
- 【python】【scrapy】使用方法概要(三)
- python学习笔记三(scrapy)
- python基础教程学习笔记三
- Python-Scrapy 个人兴趣教程(三):扫尾
- Python-Scrapy 个人兴趣教程(三):扫尾
- scrapy(三)
- 《Python基础教程(第2版)》学习笔记(三):
- Python Django基础教程(三)(模型models)
- Python基础教程(三):运算符、条件语句
- 【Python基础教程笔记(三)】抽象,更加抽象和异常
- XSL基础教程(三)
- VB基础教程(三)
- HTML 基础教程(三)
- xsl基础教程(三)
- 一句话脚本系列之统计文件夹下各种后缀名的文件个数
- 几种数据库连接的URL
- 实验1
- mysql创建数据库及表时设置字符集
- MySQL乱码问题解决
- Python scrapy基础教程(三)
- C语言-apache mod(模块开发)-采用apxs开发实战(centos7.2 linux篇)
- 转载:TCP、UDP、IP 协议分析
- 2016 蓝桥杯预选赛 塞不下的背包
- Linux学习笔记
- Java中值比较
- LeetCode 520. Detect Capital
- mysql参数之innodb_buffer_pool_size大小设置
- Elasticsearch 简介