Scrapy:Spider参数及其应用场景
来源:互联网 发布:零基础数据库培训 编辑:程序博客网 时间:2024/05/22 02:25
Spiders可以接收参数,以改变其抓取行为。
通常的应用场景是定义请求链接(start_urls)来限定抓取目标网站的某个栏目,当然参数还可以用来控制整个Spider的功能。
Spider参数通过 crawl 命令的 -a 选项来传递,比如:
scrapy crawl myspider -a category=electronics
Spiders通过构造函数获取参数:
class MySpider(Spider): name = 'myspider' def __init__(self, category=None, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.start_urls = ['http://www.example.com/categories/%s' % category] # ...
Spider参数还可以通过Scrapyd schedule.json API来传递,参见:Scrapyd documentation。
by iefreer
0 0
- Scrapy:Spider参数及其应用场景
- mysql参数详解及其应用场景介绍
- scrapy如何针对不同的spider指定不同的参数
- scrapy如何针对不同的spider指定不同的参数
- 向scrapy中的spider传递参数的几种方法
- rabitMQ及其应用场景
- Scrapy spider代码片段
- Scrapy Spider前奏
- scrapy 入门教程 爬虫 Spider
- Spider based on scrapy
- scrapy爬虫之Spider
- scrapy中spider
- scrapy的spider
- scrapy 之 Spider类
- 爬虫Scrapy-05Spider
- 二级缓存应用场景及其局限性
- Spider之Scrapy安装介绍
- Scrapy Spider Project Technical Notes
- Jsp基本语法
- js绑定事件的常用方式
- 快速排序Tag
- struts2真正工作流程
- java中常用的字符串的截取方法
- Scrapy:Spider参数及其应用场景
- shell 函数参数传递
- JS为什么有时候要做两次encodeURI
- 【转载】Cgroup用法解析
- Java 与flex 数据类型对照表
- C++ Code to Print Pascal Triangle
- 代码比较工具
- javaweb项目命名规范
- 地球坐标系 (WGS-84) 到火星坐标系 (GCJ-02)百度坐标系 (BD-09) 的转换算法