python 在pycharm中 爬虫

来源:互联网 发布:sql如何导入数据库 编辑:程序博客网 时间:2024/05/20 05:26

查了一些资料发现大部分的爬虫在liunx环境下运行,但本人想在windows下进行爬虫,好不容易把各种依赖装上了,但是如何在windows下pycharm中创建爬虫,以及调试和执行,进行了摸索。
参考了下面的两篇文章:
http://blog.csdn.net/ck4438707/article/details/52076220
http://blog.csdn.net/pleasecallmewhy/article/details/19642329

1.首先新建一个工程

这里写图片描述
并在工程里面建一个文件scrapyp.py,在文件中写入

from scrapy.cmdline import executeexecute()  

在pycharm中点击右上角:edit configurations
这里写图片描述
则弹出如下框:
这里写图片描述

在红色箭头指示的位置,输入命名参数,创建一个爬虫,名称为tutorial,执行scrapyp.py文件。
在工程下面会出现如下结构:
这里写图片描述
到此一个基本的爬虫框架出来了,后面需要再各个模块添加内容。

  1. 下面来简单介绍一下各个文件的作用:

    scrapy.cfg:项目的配置文件
    tutorial/:项目的Python模块,将会从这里引用代码
    tutorial/items.py:项目的items文件
    tutorial/pipelines.py:项目的pipelines文件
    tutorial/settings.py:项目的设置文件
    tutorial/spiders/:存储爬虫的目录
    这里写图片描述
    在此文件中放入如下代码,并执行可以看到爬取的内容:

from scrapy import cmdlinecmdline.execute("scrapy crawl dmoz".split())

这里写图片描述