爬虫学习备忘

来源:互联网 发布:阿里云 国际版 编辑:程序博客网 时间:2024/06/07 00:12

1,爬虫分类


开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?上面说的爬虫,基本可以分3类:

 

(1)分布式爬虫:Nutch


现在比较流行的分布式爬虫,是Apache的Nutch,Nutch是为搜索引擎设计的爬虫

换搭建:vmware,centos7,jdk,ant,nutch,hbase,solr

vmware安装

centos7安装

jdk安装:https://jingyan.baidu.com/article/ab0b56308966acc15afa7d18.html

ant 安装: https://www.cnblogs.com/sell/archive/2013/07/24/3210198.html

       https://jingyan.baidu.com/article/e2284b2b45d193e2e6118dc6.html

nutch 安装: http://blog.csdn.net/gobitan/article/details/13916981

http://blog.csdn.net/lzjzy520/article/details/41596893


centos7问题:主机可以ping通虚拟机,但是telnet ip 端口 不通

linux本身是否支持telenet:https://www.cnblogs.com/lixuwu/p/6102444.html

防火墙设置tcp端口:http://www.jianshu.com/p/c9c24b3a1c53


nutch命令:http://blog.csdn.net/jediael_lu/article/details/42058553

solr后台使用说明:https://www.cnblogs.com/arli/p/6837931.html


(2)JAVA爬虫:Crawler4j、WebMagic、WebCollector

 

(3)非JAVA爬虫:scrapy(基于Python语言开发)


1.1,分布式爬虫






介绍:https://www.cnblogs.com/mafeng/p/5651323.html


WebMagic

原创粉丝点击