Scrapy：Spider参数及其应用场景

来源：互联网发布：零基础数据库培训编辑：程序博客网时间：2024/05/22 02:25

Spiders可以接收参数，以改变其抓取行为。

通常的应用场景是定义请求链接(start_urls)来限定抓取目标网站的某个栏目，当然参数还可以用来控制整个Spider的功能。

Spider参数通过 crawl 命令的 -a 选项来传递，比如：

scrapy crawl myspider -a category=electronics

Spiders通过构造函数获取参数：

class MySpider(Spider):    name = 'myspider'    def __init__(self, category=None, *args, **kwargs):        super(MySpider, self).__init__(*args, **kwargs)        self.start_urls = ['http://www.example.com/categories/%s' % category]        # ...

Spider参数还可以通过Scrapyd schedule.json API来传递，参见：Scrapyd documentation。

by iefreer

0 0

Scrapy：Spider参数及其应用场景
mysql参数详解及其应用场景介绍
scrapy如何针对不同的spider指定不同的参数
scrapy如何针对不同的spider指定不同的参数
向scrapy中的spider传递参数的几种方法
rabitMQ及其应用场景
Scrapy spider代码片段
Scrapy Spider前奏
scrapy 入门教程爬虫 Spider
Spider based on scrapy
scrapy爬虫之Spider
scrapy中spider
scrapy的spider
scrapy 之 Spider类
爬虫Scrapy-05Spider
二级缓存应用场景及其局限性
Spider之Scrapy安装介绍
Scrapy Spider Project Technical Notes
Jsp基本语法
js绑定事件的常用方式
快速排序Tag
struts2真正工作流程
java中常用的字符串的截取方法
Scrapy：Spider参数及其应用场景
shell 函数参数传递
JS为什么有时候要做两次encodeURI
【转载】Cgroup用法解析
Java 与flex 数据类型对照表
C++ Code to Print Pascal Triangle
代码比较工具
javaweb项目命名规范
地球坐标系 (WGS-84) 到火星坐标系 (GCJ-02)百度坐标系 (BD-09) 的转换算法