Scrapy全局变量

来源:互联网 发布:什么软件可以锁一体机 编辑:程序博客网 时间:2024/06/07 20:40

作为一名NLPer,爬虫技能越来越显得不可缺少,没有枪,没有语料,我们只好自己造。

  在我觉得需要掌握一个爬虫技能时,就去查找看现在哪个爬虫工具风评比较好,在参考了众多回答后,选择了Scrapy。而在用Scrapy实现了几个爬虫项目后,我对这个爬虫工具非常满意,完全可以用爬虫界的神器来比喻!

  Scrapy简单易用,完全可以去Scrapy官网对教程撸一下。但我当时写爬虫的时候,对怎么实现不同页面间的传值,着实费了一些功夫。

这个传值,是不是很像我们平时写程序中的“全局变量”?

好了,直入主题,其实就是设置meta变量。

  • 代码:
    def parse(self, response):        main = response.css('div.search_content')           href = 'google.com'        meta_data = main.css('div.clearfixed').extract_first()                 yield scrapy.Request(href, meta = {'meta_data': meta_data }, callback = self.parse_position)

  这里缩减了很多内容,只是为了展示meta的设置,看到yield,里面的参数,有个meta的字典类型,在里面就可以设置Scrapy的跨页面传值了。

0 1
原创粉丝点击