PyCharm下进行Scrapy项目的调试
来源:互联网 发布:我知你非血肉之躯 编辑:程序博客网 时间:2024/04/28 12:14
- 1首先创建一个Scrapy项目
- 2创建新的Spider
- 3配置settingpy文件这步很重要
- 4在工程目录下建立mainpy文件稍后将会在这里面进行调试
- 5进行断点调试
- 附录
PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。
1、首先创建一个Scrapy项目:
在命令行输入:
scrapy startproject project_name
project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:
2、创建新的Spider
在命令行输入:
scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-import scrapyclass JobboleSpider(scrapy.Spider): name = 'jobbole' allowed_domains = ['blog.jobbole.com'] start_urls = ['http://blog.jobbole.com/111322/'] def parse(self, response): re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1') pass
3、配置setting.py文件(这步很重要)
BOT_NAME = 'py_scrapyjobbole'SPIDER_MODULES = ['py_scrapyjobbole.spiders']NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'# Obey robots.txt rulesROBOTSTXT_OBEY = False
ROBOTSTXT_OBEY = False
一定要设置成 False,断点调试才能正常进行。
4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!
from scrapy.cmdline import executeimport sysimport os# 打断点调试py文件# sys.path.append('D:\PyCharm\py_scrapyjobbole')sys.path.append(os.path.dirname(os.path.abspath(__file__)))print(os.path.dirname(os.path.abspath(__file__)))execute(['scrapy', 'crawl', 'jobbole'])
5、进行断点调试
附录
xpath相关知识
在用Scrapy进行数据爬取时可能会用到xpath相关知识,所以简单地展示一张图:
在这里面值得注意的是‘’/“和”//“的区别!
/:代表子元素,选取的元素必须是父子关系
//:代表所有后代元素,选取的元素不一定是父子关系,只要是后代元素即可
不过,大家要是觉得难的话,也可以利用chrome的元素查找功能进行xpath路径的复制:
阅读全文
0 0
- PyCharm下进行Scrapy项目的调试
- PyCharm下进行Scrapy项目的调试
- pycharm 下调试 scrapy
- 爬虫技巧:在pycharm 下 调试 scrapy项目
- PyCharm工具下调试scrapy
- windows下PyCharm运行和调试scrapy
- windows下PyCharm运行和调试scrapy
- windows下PyCharm运行和调试scrapy
- pycharm 调试 scrapy
- 关于pycharm导入scrapy项目的问题
- pycharm运行scrapy项目
- pycharm下打开、执行并调试scrapy爬虫程序
- mac下用pycharm进行断点调试
- 用Pycharm打开Scrapy项目
- 用Pycharm打开Scrapy项目
- 使用pycharm运行scrapy项目
- pycharm上运行scrapy项目
- 使用PyCharm执行scrapy项目
- BZOJ 4916 神犇和蒟蒻
- Saving HDU HDU 2111
- Java程序员的10道XML面试题
- Table(name="xx")与Entity(name="xx")
- 适合于图像处理方向的SCI期刊杂志列表
- PyCharm下进行Scrapy项目的调试
- 初学数据结构---排序
- [leetcode]: 226. Invert Binary Tree
- False disk full error: apt-get unable to install or remove
- Smarty模板引擎
- CS224d Assignment1 答案, Part(1/4)
- 线程辅助类(五)--Phaser
- angular开发:angular2的基础问题
- DWR出现session error及Uncaught Error: You must include DWR engine before including this file