Scrapy:Spider参数及其应用场景

来源:互联网 发布:零基础数据库培训 编辑:程序博客网 时间:2024/05/22 02:25

Spiders可以接收参数,以改变其抓取行为。

通常的应用场景是定义请求链接(start_urls)来限定抓取目标网站的某个栏目,当然参数还可以用来控制整个Spider的功能。

Spider参数通过 crawl 命令的 -a 选项来传递,比如:

scrapy crawl myspider -a category=electronics

Spiders通过构造函数获取参数:

class MySpider(Spider):    name = 'myspider'    def __init__(self, category=None, *args, **kwargs):        super(MySpider, self).__init__(*args, **kwargs)        self.start_urls = ['http://www.example.com/categories/%s' % category]        # ...

Spider参数还可以通过Scrapyd schedule.json  API来传递,参见:Scrapyd documentation。

by iefreer

0 0
原创粉丝点击