scrapy 爬虫过滤相同的url,Filtered duplicate request,dont_filter

来源:互联网 发布:微软云和阿里云对比 编辑:程序博客网 时间:2024/06/05 11:05
            yield Request('https://www.zhihu.com',                          meta={'cookiejar':response.meta['cookiejar']},                          headers=self.headers_zhihu,                          callback=self.parse_index,                          dont_filter=True                          )

scrapy默认过滤掉重复的之前爬过的url,在request参数中添加dont_filter=True
设置不过滤url

原创粉丝点击