Scrapy学习-1
来源:互联网 发布:淘宝水果属于什么类目 编辑:程序博客网 时间:2024/06/05 23:58
环境:
Windows7 python2.7.10(64位)
安装:
easy_install scrapy
升级pip:
pip install --upgrade pip
新建项目 (Project):新建一个新的爬虫项目
明确目标(Items):明确你想要抓取的目标
制作爬虫(Spider):制作爬虫开始爬取网页
存储内容(Pipeline):设计管道存储爬取内容
新建项目:
cmd>scrapy startproject tutorial
scrapy.cfg:项目的配置文件
tutorial/:项目的Python模块,将会从这里引用代码
tutorial/items.py:项目的items文件
tutorial/pipelines.py:项目的pipelines文件
tutorial/settings.py:项目的设置文件
tutorial/spiders/:存储爬虫的目录
明确目标
cmd>scrapy crawl dmoz
运行报错:
python:exceptions.ImportError: No module named win32api
解决参考:
scrapy_install.pdf:http://www.feedbackward.com/content/scrapy_install.pdf
scrapy_install.pdf所有包点击下载
解决之后运行成功
xpath学习
w3school:http://www.w3school.com.cn/xpath/index.asp
官方文档:http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes
学习参考:http://blog.csdn.net/pleasecallmewhy/article/details/19642329
Scrapy应用MongoDB
在settings.py中配置MongoDB的IP地址、端口、数据记录名称,可以实现方便的更换MongoDB的数据库信息。
在settings.py中引用pipelines.py从而使pipelines生效。
在pipelines中可以使用像普通Python文件操作MongDB一样编写代码处理需要保存到MongoDB的数据。
然而不同的是这里的数据来自items。这样做的好处是将数据的抓取和处理分开。
- Scrapy学习笔记(1)初探Scrapy
- Scrapy学习-1
- Scrapy学习日记1
- scrapy 学习1
- Scrapy学习笔记(1)
- scrapy学习(1)
- 【scrapy】学习Scrapy入门
- <scrapy>scrapy入门学习
- 【scrapy】学习Scrapy入门
- scrapy学习(1)安装
- Scrapy框架学习(1)
- scrapy爬虫学习备忘录(1)
- 【Scrapy】学习记录1_一个基本的Scrapy项目
- Scrapy学习
- scrapy学习
- Scrapy学习
- Scrapy 学习
- scrapy学习
- UFLDL教程之六:自我学习
- Java 多线程:synchronized 多线程同步关键字
- WPF 加UserControl(wpf) ViewModel模式数据之间交互
- 单例模式续
- Linux-系统运维监控工具-概述
- Scrapy学习-1
- 线段树 水题----今天先写点初学者的基础
- redis3.0.7连接 <java>
- 【邂逅BUG】从imagecreatefromX图片创建函数引起的BUG的排查经验
- 选择的文件是解决方案文件 但是用此应用程序的较新版本创建的,无法打开
- QtWidgets继承关系树
- Ubuntu 14.04安装dede织梦管理系统
- mvn plugin checkstyle/findbugs/pmd在多module项目中的使用
- TCP连接TIME_WAIT和CLOSE_WAIT状态