爬虫学习备忘
来源:互联网 发布:阿里云 国际版 编辑:程序博客网 时间:2024/06/07 00:12
1,爬虫分类
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?上面说的爬虫,基本可以分3类:
(1)分布式爬虫:Nutch
现在比较流行的分布式爬虫,是Apache的Nutch,Nutch是为搜索引擎设计的爬虫
换搭建:vmware,centos7,jdk,ant,nutch,hbase,solr
vmware安装
centos7安装
jdk安装:https://jingyan.baidu.com/article/ab0b56308966acc15afa7d18.html
ant 安装: https://www.cnblogs.com/sell/archive/2013/07/24/3210198.html
https://jingyan.baidu.com/article/e2284b2b45d193e2e6118dc6.html
nutch 安装: http://blog.csdn.net/gobitan/article/details/13916981
http://blog.csdn.net/lzjzy520/article/details/41596893
centos7问题:主机可以ping通虚拟机,但是telnet ip 端口 不通
linux本身是否支持telenet:https://www.cnblogs.com/lixuwu/p/6102444.html
防火墙设置tcp端口:http://www.jianshu.com/p/c9c24b3a1c53
nutch命令:http://blog.csdn.net/jediael_lu/article/details/42058553
solr后台使用说明:https://www.cnblogs.com/arli/p/6837931.html
(2)JAVA爬虫:Crawler4j、WebMagic、WebCollector
(3)非JAVA爬虫:scrapy(基于Python语言开发)
1.1,分布式爬虫
介绍:https://www.cnblogs.com/mafeng/p/5651323.html
WebMagic
- 爬虫学习备忘
- python爬虫备忘 31.8
- python爬虫备忘
- python爬虫备忘(3)
- python爬虫实例备忘
- python关于爬虫编码备忘
- python爬虫备忘 9.1所学
- python爬虫备忘(2)
- python爬虫备忘(4)
- python爬虫备忘(5)
- python爬虫备忘(6)
- [备忘]Python网络爬虫伪造报头
- 爬虫学习
- 爬虫学习
- 爬虫学习
- 【备忘】Python爬虫项目班 从零开始实现爬虫系统
- C++学习的备忘
- 学习Ajax--网址备忘
- jeesite全选 批量删除。有坑啊!
- LeetCode之路——LeetCode_1_TwoSum
- 网易面试小结
- css实现单行、多行文本溢出显示省略号
- sqlite expert 教程
- 爬虫学习备忘
- "设置--安全--未知来源“默认打开
- solr在windows下的安装使用(一)
- 《剑指offer》刷题笔记(时间空间效率的平衡):丑数
- 唯快不破:TCP/IP详解--ICMP 控制报文和差错报文 && Tracerouter 命令的过程
- crontab
- 解决UnicodeDecodeError: 'ascii' codec can't decode byte 0x8b in position 6: ordinal not in range(128)
- 自顶向下,逐步求精
- logstash使用之json输入输出