Scrapy设置之Feeds
来源:互联网 发布:大麦电话软件下载 编辑:程序博客网 时间:2024/06/06 03:28
Scrapy提供了Feed Exports来保存抓取到的Item
,Feed Exports有几种序列化格式和几种存储方式。
存储方式:本地文件系统、FTP、S3、标准输出。由FEED_URI
选项指定。FEED_URI
里面可以有命令参数,例如,
ftp://user:password@ftp.example.com/scraping/feeds/%(name)s/%(time)s.json
其中,time由输出时的时间戳代替,而name则是爬虫的name属性。也可以有其它的命令参数,比如%(site_id)s
,此时爬虫需要有site_id属性。
序列化格式:JSON,JSON lines,CSV,XML,Pickle,Marshal。由FEED_FORMAT
选项指定,若没有指定,则根据FEED_URI
的后辍来猜测。
FEED_STORE_EMPTY
可以用来控制是否输出空的feed,比如没有Item
的feed。
可以用FEED_EXPORT_FIELDS
来控制输出的字段以及其顺序,如FEED_EXPORT_FIELDS = ["foo", "bar", "baz"]
。这点对于那些有固定的header栏的csv文件尤其有用。
最后,FEED_URI_PARAMS
可以用来定义一个对FEED_URI
里面的参数进行后处理的函数。
1 0
- Scrapy设置之Feeds
- Scrapy设置之Analysis
- Scrapy设置之深入
- Scrapy设置之自定义命令
- Scrapy设置之Performance概览
- Scrapy设置之Crawling style
- Scrapy设置之Downloading media
- Scrapy之settings设置篇
- Scrapy设置之提前终止爬虫
- Scrapy设置之Using proxies and crawlers
- Scrapy设置之HTTP缓存与离线工作
- scrapy缺省设置
- scrapy设置代理proxy
- scrapy代理的设置
- scrapy设置"请求池"
- scrapy设置代理池
- scrapy中设置log
- Scrapy: 如何设置代理
- LruCache详解之 Android 内存优化
- 局部变量和static的千丝万缕
- idea 打war包
- 欢迎使用CSDN-markdown编辑器
- 利用SetConsoleTextAttribute函数设置控制台颜色
- Scrapy设置之Feeds
- Android中button setbackground setbackgroundColor方法问题
- Web应用——驾培管理系统之框架搭建(作者:小圣)
- 关于Linux下获取系统时间问题
- Grunt环境部署_3
- 关于android时间方面的知识
- java socket 上传文件与对话自由选择(不过只能监听一个客户端,因为没有用while循环)
- 关于easyuidatagrid获取datagrid的选择数据
- CentOS7+Docker+Redis3环境搭建