scrapy爬虫学习系列四:portia的学习入门
来源:互联网 发布:162端口 编辑:程序博客网 时间:2024/05/16 15:55
系列文章列表:
scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html
scrapy爬虫学习系列二:scrapy简单爬虫样例学习: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html
scrapy爬虫学习系列三:scrapy部署到scrapyhub上: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html
scrapy爬虫学习系列四:portia的学习入门: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html
portia的简介:
Portia是我们的开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据
scrapyhub上的一些简介视频(需FQ): https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-
scrapyhub上的完整入门手册: https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide
前言:
本文打算使用scrapy官方提供的demo网页(http://quotes.toscrape.com/page/1/)执行工程创建,这个网页相信大家都很熟悉了。那我们这就开始吧。
1.打开官网https://app.scrapinghub.com/
2.创建工程
3.设置开始抓取网页
4.创建爬虫
5.创建样例页
6.设置元素获取方式
6.1添加content字段
6.2添加author字段
6.3添加tag字段
7.运行爬虫
8.查看爬虫结果
9.查看爬虫运行结果
10.查看item结果
11.下载我们可视化的源码吧
我这个时间下载到的scrapy貌似没法运行,貌似官方网址有点问题,但是portia是可以用的。当然我们可以使用portia2code去转换portia代码为scrapy代码。
具体步骤可以参考如下网址:https://helpdesk.scrapinghub.com/support/solutions/articles/22000188424-how-do-i-download-my-portia-2-0-project-into-a-scrapy-project-
好了。我们使用的portia就是可以获取指定网页的数据,详细的大家可以自己摸索摸索。
- scrapy爬虫学习系列四:portia的学习入门
- 【scrapy】学习Scrapy入门
- <scrapy>scrapy入门学习
- 【scrapy】学习Scrapy入门
- 爬虫学习(三) Scrapy框架入门与豆瓣电影爬虫
- Scrapy 爬虫学习
- scrapy爬虫学习
- Python 爬虫学习 —— Scrapy 入门知识学习
- Python爬虫系列之----Scrapy(四)一个简单的示例
- Python网络爬虫框架scrapy的学习
- 学习安装python的Scrapy爬虫框架
- 爬虫学习:scrapy相关的知识
- Scrapy爬虫入门系列1 安装
- Scrapy爬虫入门系列2 示例教程
- scrapy爬虫必需品--------xpath学习
- 爬虫学习之Scrapy构建
- 爬虫学习笔记-Scrapy初识
- 爬虫学习笔记-Scrapy散记
- effective C++条款四十七解读
- openstack 管理四十
- 关于Android studio打包发布,以及Android签名的获取
- java 时间戳 转 字符串
- Python 面向对象编程(二)
- scrapy爬虫学习系列四:portia的学习入门
- Ms visio 下载
- openresty centos下开发环境安装
- bzoj 3040: 最短路(road)(堆优化dijkstra)
- 递归二叉树的序列打印、非递归二叉树的序列打印
- UVA
- 反爬虫四个基本策略
- P1182 数列分段Section II
- Swift_学习笔记_自动引用计数