JAVA爬虫WebCollector 2.x入门教程——基本概念

来源:互联网 发布:传奇数据库下载 编辑:程序博客网 时间:2024/05/17 16:02
JAVA爬虫WebCollector 2.x入门教程——基本概念
摘要:

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。

目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector

中文教程地址:http://datahref.com/book/

0 0