30天了解30种技术系列---(16)可视化爬虫工具---Portia
来源:互联网 发布:阿里云app名师课堂在哪 编辑:程序博客网 时间:2024/05/19 09:12
Portia是scrapyhub开源的一款可视化的爬虫规则编写工具,提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。(动态网页需要自己编写JS解析器)。
Portia的项目地址为:https://github.com/scrapinghub/portia
安装方式如下:
git clone https://github.com/scrapinghub/portia
在docker的环境下构建
docker build -t portia .
启动,然后可以通过9001 端口进行访问,
docker run -i -t --rm-v <PROJECT_FOLDER>/data:/app/slyd/data:rw \-p 9001:9001 \--name portia \portia访问地址:http://localhost:9001/static/index.html
效果如下:
我们可以将数据写入mysql 等只需要进行简单的,配置,跟多的内容大家可以去详细了解
大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。
更多精彩请关注微信 : 图灵搜索
大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。
阅读全文
0 0
- 30天了解30种技术系列---(16)可视化爬虫工具---Portia
- Portia可视化爬虫部署
- 开源可视化网页抓取工具Portia 爬虫
- 可视化的网页内容抓取工具 Portia
- 30天了解30种技术系列---(4)Node.js神级开发工具-WebStorm
- 30天了解30种技术系列---(26)MySQL自动化运维工具Inception
- 30天了解30种技术系列---(24)开源网站流量分析工具Piwik
- scrapy爬虫学习系列四:portia的学习入门
- 30天了解30种技术系列---(1)现代web应用服务器-Express.js
- 30天了解30种技术系列---(3)JS的Make-GruntJS
- 30天了解30种技术系列---(5)新型CSS框架-Less
- 30天了解30种技术系列---(6)非常赞的UI框架Flat-ui
- 30天了解30种技术系列---(11)Java开发者梦想的框架Play
- 30天了解30种技术系列---(8)终于等到你:Node.js
- 30天了解30种技术系列---(7)不只有Echart,我们还有Char.js
- 30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch
- 30天了解30种技术系列---(8)终于等到你:Node.js
- 30天了解30种技术系列(18)--- 强大的日志管理工具--Logstash
- Java并发之线程池的学习
- 更改idea下的安卓调试的keystore文件为和发布版keystore一致
- 测试题
- 关于APP进程被杀死,极光推送收不到消息的解决办法
- 12.11笔记
- 30天了解30种技术系列---(16)可视化爬虫工具---Portia
- CLASS
- 多年不见,csdn也改版了
- HDU
- 30天了解30种技术系列(17)---词关系分析神器Word2vec
- netty源码分析之服务端启动全解析
- 【Java学习笔记】如何定义Java中的不可变类
- 乐逛0.1
- 1012. The Best Rank (25)