scrapy目录结构

来源:互联网 发布:c语言中 ||是什么意思 编辑:程序博客网 时间:2024/06/17 22:27

新建项目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫

项目目录结构

这里写图片描述

编辑爬虫文件


  1. items.py

items.py 中定义了储存数据的字段名,在编辑此文件前需先分析要提取那些信息,定义好名称即可。

  • JobSpider.py

    此文件是整个爬虫的发起点,启动爬虫时会从此文件中的start_urls里的url地址开始爬,中间经过了 爬虫》引擎》调度器》下载器》引擎》爬虫,此时会返回一个response即为start_urls对应的网页文件,在此爬虫文件里还有一个parse函数,带有response这个参数,专门用来解析返回文件的处理,解析后的结果经提取处理后可存放到items.py定义的字段里(需要引入items.py中相应的类实例),如果要想将数据转存到数据库或其他格式,只需将item放出 (yield item),它会被pipelines.py自动捕获进行处理。

  • pipelines.py

    此文件是用来处理提取的数据的,可以将数据转存为其他格式或数据库中,如果要启用此文件需要先在settings.py中指明pipelines.py中的类,并且如果有多个类的话还要定义优先级,就是后面的数字,越小优先级越高,
    在每个pipeline类中必有一个process_item的函数,此函数是数据处理的具体流程。

  • settings.py


  • 详细信息科参考此博客