Scrapy爬虫入门教程二 官方提供Demo
来源:互联网 发布:hex下载到单片机 编辑:程序博客网 时间:2024/06/05 19:49
Python版本管理:pyenv和pyenv-virtualenv
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)
开发环境: Python 3.6.0 版本
(当前最新) Scrapy 1.3.2 版本
(当前最新)
[toc]
今天研究下官方给出的案例,大家可以多看看,多模仿模仿。
例子
最好的学习方法是使用示例,Scrapy也不例外。因此,有一个名为quotesbot的 Scrapy项目示例,请访问https://github.com/scrapy/quotesbot,一个使用CSS选择器,另一个使用XPath表达式,此项目仅用于教育目的。
提取的数据
提取的数据看起来像这个示例:
{ 'author': 'Douglas Adams', 'text': '“I may not have gone where I intended to go, but I think I ...”', 'tags': ['life', 'navigation']}
爬虫
此项目包含两个爬虫,您可以使用list 命令列出它们:
$ scrapy list
toscrape-css
toscrape-xpath
两个爬虫都从同一网站提取相同的数据,但toscrape-css 使用CSS选择器,而toscrape-xpath使用XPath表达式。
运行爬虫
您可以使用scrapy crawl命令运行爬虫,如: $ scrapy crawl toscrape-css
如果要将已抓取的数据保存到文件,可以传递-o选项: $ scrapy crawl toscrape-css -o quotes.json
- Scrapy爬虫入门教程二 官方提供Demo
- scrapy 入门教程 爬虫 Spider
- Scrapy爬虫Demo
- Scrapy爬虫入门教程四 Spider(爬虫)
- Scrapy爬虫(二):爬虫简介
- 爬虫总结(二)-- scrapy
- Scrapy安装、爬虫入门教程、爬虫实例(豆瓣电影爬虫)
- scrapy爬虫框架学习入门教程及实例
- Scrapy爬虫入门教程五 Selectors(选择器)
- Scrapy爬虫入门教程六 Items(项目)
- Scrapy爬虫入门教程十三 Settings(设置)
- Scrapy爬虫入门教程 安装和基本使用
- 浅谈 Scrapy 爬虫(二)
- 网络蜘蛛爬虫 Scrapy - 简介&Demo
- 爬虫框架Scrapy的第一个爬虫示例入门教程
- 爬虫框架Scrapy的第一个爬虫示例入门教程
- 爬虫框架Scrapy的第一个爬虫入门教程
- Scrapy爬虫入门教程一 安装和基本使用
- Python编码介绍
- dubbo webservice 之java.lang.NoSuchMethodError: org.apache.cxf.transport.http.HTTPTransportFactory
- 成人网站YouPorn使用Redis之经验谈
- AndroidSDK工具详解
- bzoj4011[HNOI2015]落忆枫音
- Scrapy爬虫入门教程二 官方提供Demo
- Redis:哨兵Sentinel
- 如何使用USB網卡
- Linux学习之——重要快捷键
- 仅纪念今天
- Android6.0 无法锁屏
- 设置发说说只能30字
- android资源查找
- 算法第二周: Divide and Conquer-分治算法