scrapy目录结构
来源:互联网 发布:c语言中 ||是什么意思 编辑:程序博客网 时间:2024/06/17 22:27
新建项目
scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫
项目目录结构
编辑爬虫文件
items.py
items.py 中定义了储存数据的字段名,在编辑此文件前需先分析要提取那些信息,定义好名称即可。
JobSpider.py
此文件是整个爬虫的发起点,启动爬虫时会从此文件中的start_urls里的url地址开始爬,中间经过了 爬虫》引擎》调度器》下载器》引擎》爬虫,此时会返回一个response即为start_urls对应的网页文件,在此爬虫文件里还有一个parse函数,带有response这个参数,专门用来解析返回文件的处理,解析后的结果经提取处理后可存放到items.py定义的字段里(需要引入items.py中相应的类实例),如果要想将数据转存到数据库或其他格式,只需将item放出 (yield item),它会被pipelines.py自动捕获进行处理。
pipelines.py
此文件是用来处理提取的数据的,可以将数据转存为其他格式或数据库中,如果要启用此文件需要先在settings.py中指明pipelines.py中的类,并且如果有多个类的话还要定义优先级,就是后面的数字,越小优先级越高,
在每个pipeline类中必有一个process_item的函数,此函数是数据处理的具体流程。
settings.py
详细信息科参考此博客
阅读全文
0 0
- scrapy目录结构
- 目录结构
- 目录结构
- 目录结构
- 目录结构
- 目录结构
- 目录结构
- 目录结构
- 目录结构
- scrapy学习笔记——scrapy目录含义
- python中的scrapy框架的结构
- JavaWeb项目结构 目录结构
- ACE目录结构介绍
- MySQL数据目录结构
- BSD目录结构一览
- MySQL数据目录结构
- MySQL数据目录结构
- Linux目录结构
- 文件系统特性
- Git简易教程笔记(2)
- 使用C++模拟动态密码验证
- Rotation effect
- 【四】数组(栈与堆)
- scrapy目录结构
- 排序算法之插入排序
- mysql开发技巧笔记
- LeetCode 0070
- 设计模式笔记2-策略模式
- C++函数调用 入栈以及出栈
- cmd常用命令
- java day03-day05 基础知识梳理
- c++经典题----统计一个文件“is”单词的个数