Scrapy学习-1

来源:互联网 发布:淘宝水果属于什么类目 编辑:程序博客网 时间:2024/06/05 23:58

环境:

Windows7 python2.7.10(64位)

安装:

easy_install scrapy

升级pip:

pip install --upgrade pip

新建项目 (Project):新建一个新的爬虫项目
明确目标(Items):明确你想要抓取的目标
制作爬虫(Spider):制作爬虫开始爬取网页
存储内容(Pipeline):设计管道存储爬取内容

新建项目:

cmd>scrapy startproject tutorial
scrapy.cfg:项目的配置文件
tutorial/:项目的Python模块,将会从这里引用代码
tutorial/items.py:项目的items文件
tutorial/pipelines.py:项目的pipelines文件
tutorial/settings.py:项目的设置文件
tutorial/spiders/:存储爬虫的目录

明确目标

cmd>scrapy crawl dmoz

运行报错:

python:exceptions.ImportError: No module named win32api

解决参考:

scrapy_install.pdf:http://www.feedbackward.com/content/scrapy_install.pdf
scrapy_install.pdf所有包点击下载
解决之后运行成功

xpath学习
w3school:http://www.w3school.com.cn/xpath/index.asp

官方文档:http://doc.scrapy.org/en/latest/intro/install.html#intro-install-platform-notes
学习参考:http://blog.csdn.net/pleasecallmewhy/article/details/19642329

Scrapy应用MongoDB

在settings.py中配置MongoDB的IP地址、端口、数据记录名称,可以实现方便的更换MongoDB的数据库信息。
在settings.py中引用pipelines.py从而使pipelines生效。

在pipelines中可以使用像普通Python文件操作MongDB一样编写代码处理需要保存到MongoDB的数据。
然而不同的是这里的数据来自items。这样做的好处是将数据的抓取和处理分开。

0 0
原创粉丝点击