python 在pycharm中爬虫

来源：互联网发布：sql如何导入数据库编辑：程序博客网时间：2024/05/20 05:26

查了一些资料发现大部分的爬虫在liunx环境下运行，但本人想在windows下进行爬虫，好不容易把各种依赖装上了，但是如何在windows下pycharm中创建爬虫，以及调试和执行，进行了摸索。
参考了下面的两篇文章：
http://blog.csdn.net/ck4438707/article/details/52076220
http://blog.csdn.net/pleasecallmewhy/article/details/19642329

1.首先新建一个工程

这里写图片描述
并在工程里面建一个文件scrapyp.py，在文件中写入

from scrapy.cmdline import executeexecute()

在pycharm中点击右上角：edit configurations
这里写图片描述
则弹出如下框：

在红色箭头指示的位置，输入命名参数，创建一个爬虫，名称为tutorial,执行scrapyp.py文件。
在工程下面会出现如下结构:
这里写图片描述
到此一个基本的爬虫框架出来了，后面需要再各个模块添加内容。

下面来简单介绍一下各个文件的作用：
scrapy.cfg：项目的配置文件
tutorial/：项目的Python模块，将会从这里引用代码
tutorial/items.py：项目的items文件
tutorial/pipelines.py：项目的pipelines文件
tutorial/settings.py：项目的设置文件
tutorial/spiders/：存储爬虫的目录

在此文件中放入如下代码，并执行可以看到爬取的内容：

from scrapy import cmdlinecmdline.execute("scrapy crawl dmoz".split())

这里写图片描述

阅读全文

0 0

python 在pycharm中 爬虫

python 在pycharm中爬虫