Windows中Python3.6安装、Scrapy安装及简单认识

来源：互联网发布：坣娜知乎编辑：程序博客网时间：2024/06/14 14:44

1.从http://python.org/download/上下载Windows平台上的Python3.6的安装文件，点击进行安装：

2.安装完毕后，可以在DOS命令行查询安装的Python版本：

3.从http://sourceforge.net/projects/pywin32/安装pywin32（下载符合系统的pywin32版本）

4.在安装Python3.6时，会自动安装pip，打开命令行，查询pip版本：

5.安装Scrapy（利用pip安装）

Scrapy安装完后可以在命令行查询当前的Scrapy的版本，同时可以验证一下Scrapy是否安装成功

如果出现以下界面，则证明Scrapy安装成功啦，就可以开始驾驭你的爬虫啦！

下面来简单的说一下Scrapy入门吧：

1.创建一个Scrapy项目

2.定义提取的Item

3.编写爬取网站的spider并提取Item

4.编写Item Pipeline来存储提取到的Item（就是存储提取到的数据）

Scrapy是有Python语言进行编写，需要一定的Python基础，以下是针对有Python基础的教程。如果你对Python还一窍不知，建议你先学习以下Python基础，这样容易接受，学的也会快些。

1.创建Scrapy项目：

使用Scrapy爬取数据，需要先建立一个Scrapy项目：

如果是在桌面创建的话，会在桌面创建一个名字为example的文件夹，文件夹的结构为：

example:

------scrapy.cfg

------example/

--------_init_.py

--------items.py

--------pipelines.py

--------settings.py

--------spiders/

------------_init_.py

------------_pycache/

...

- scrapy.cfg:项目的配置文件；

- example ：该项目的Python模块；

- example/items.py ：项目中的item文件，为提取的数据创建模型；

- example/pipelines.py ：项目中的pipelines文件；

- example/settings.py ：项目中的配置文件；

- example/spiders/ :存放spider代码

2.定义Item（建立提取的数据模型）

Item是保存爬取到的数据的容器，在这个文件中你可以定义数据模型，然后爬取到的数据最终会按照你定义的模型来存储数据。

import scrapyclass ExmapleItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    passempty

3.编写spider代码

在spider文件下新建一个exampleSpider.py,该文件就是爬取网页数据的‘爬虫’，你需要为它规范一下“行为”

创建一个Spider，必须继承scrapy.Spider类，同时定义三个属性：

1> name : 为你的爬虫定义一个名字（名字是唯一的），在后边的爬取过程中区分于其他爬虫；

2> start_urls :包含了Spider在启动时进行爬取的URL列表；

3> parse(self,response) : 是spider方法。被调用时，每个初始URL完成爬取后的response都会传给这个方法。该方法负责解析返回的数据，并进行近一步的提取。

以下是exampleSpider代码：

empty

4.爬取

在DOS命令行中，进入项目的根目录，启动spider：

empty

在example的根目录下会创建Book的文件。

3 0