python scrapy 向parse传递参数、标识
来源:互联网 发布:易语言源码怎么用 编辑:程序博客网 时间:2024/05/20 10:12
在做爬foursquare的爬虫时,需要在parse函数里以userid为文件名进行保存,有一种最简单的方法,那就是在构造初始链接时,将id=[userid]作为参数加入到链接中,
start_urls =[ 'http://foursquare.com/user/%d?id=%d' %(n,n) for n in range(99660,99665) ]这个参数会被foursquare的服务器过滤到,依然能访问到正确的链接内容,而这样带参数的链接,又可以在parse里通过response.url来得到userid。
def parse(self,response): ID=str(response.url).strip().split("id=")[-1] with open(str(ID)+".txt","w") as fw: ...程序运行结果如下:
...2016-09-21 14:05:22 [scrapy] DEBUG: Redirecting (301) to <GET https://foursquare.com/kluoma?id=99660> from <GET https://foursquare.com/user/99660?id=99660>2016-09-21 14:05:23 [scrapy] DEBUG: Crawled (200) <GET https://foursquare.com/kluoma?id=99660> (referer: None)https://foursquare.com/kluoma?id=996602016-09-21 14:05:23 [scrapy] DEBUG: Crawled (200) <GET https://foursquare.com/user/99661?id=99661> (referer: None)https://foursquare.com/user/99661?id=996612016-09-21 14:05:24 [scrapy] DEBUG: Redirecting (301) to <GET https://foursquare.com/user/99664?id=99664> from <GET http://foursquare.com/user/99664?id=99664>2016-09-21 14:05:24 [scrapy] DEBUG: Redirecting (301) to <GET https://foursquare.com/lucasb?id=99663> from <GET https://foursquare.com/user/99663?id=99663>2016-09-21 14:05:25 [scrapy] DEBUG: Crawled (200) <GET https://foursquare.com/user/99664?id=99664> (referer: None)https://foursquare.com/user/99664?id=996642016-09-21 14:05:26 [scrapy] DEBUG: Crawled (200) <GET https://foursquare.com/user/99662?id=99662> (referer: None)https://foursquare.com/user/99662?id=996622016-09-21 14:05:28 [scrapy] DEBUG: Crawled (200) <GET https://foursquare.com/lucasb?id=99663> (referer: None)https://foursquare.com/lucasb?id=99663...
1 0
- python scrapy 向parse传递参数、标识
- 向python脚本传递参数
- 向python脚本传递参数
- 向scrapy中的spider传递参数的几种方法
- python 向函数传递多个参数
- 向python脚本传递参数的方法
- parse shell传递的参数
- shell调用python脚本,并且向python脚本传递参数
- 向sqlplus传递参数
- 向脚本传递参数
- 向脚本传递参数
- 向报表传递参数
- 向Fragment传递参数
- 向脚本传递参数
- 向awk传递参数
- 向RDLC传递参数
- 实现向 python 脚本中传递列表,字典参数
- Python小实验——向类传递参数
- 字符串的排列
- iOS 小知识-设置UISwitch的颜色
- Java的练习3
- Count of Smaller Numbers After Self
- XX-net
- python scrapy 向parse传递参数、标识
- 堆和栈的区别
- Android 网络框架 Volley 源码解析
- C/C++学习建议
- Mysql基本语句复习
- clock程序
- 围圈报数
- tianchai 12012 解密QQ号 (数组实现队列)
- ViewPager的使用<二>