scrapy目录结构

来源：互联网发布：c语言中 ||是什么意思编辑：程序博客网时间：2024/06/17 22:27

新建项目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫

项目目录结构

这里写图片描述

编辑爬虫文件

items.py

items.py 中定义了储存数据的字段名，在编辑此文件前需先分析要提取那些信息，定义好名称即可。

JobSpider.py

此文件是整个爬虫的发起点，启动爬虫时会从此文件中的start_urls里的url地址开始爬，中间经过了爬虫》引擎》调度器》下载器》引擎》爬虫，此时会返回一个response即为start_urls对应的网页文件，在此爬虫文件里还有一个parse函数，带有response这个参数，专门用来解析返回文件的处理，解析后的结果经提取处理后可存放到items.py定义的字段里（需要引入items.py中相应的类实例），如果要想将数据转存到数据库或其他格式，只需将item放出（yield item），它会被pipelines.py自动捕获进行处理。

pipelines.py

此文件是用来处理提取的数据的，可以将数据转存为其他格式或数据库中,如果要启用此文件需要先在settings.py中指明pipelines.py中的类，并且如果有多个类的话还要定义优先级，就是后面的数字，越小优先级越高，
在每个pipeline类中必有一个process_item的函数，此函数是数据处理的具体流程。

settings.py

详细信息科参考此博客

阅读全文

0 0