java 爬虫框架收集
来源:互联网 发布:2016留守儿童最新数据 编辑:程序博客网 时间:2024/05/16 10:34
java crawler framework
Author : Janloong Do_O
1、crawler4j https://github.com/yasserg/crawler4j 拥有爬虫的核心功能,所以上手极为简单,几分钟就可以写一个多线程爬虫程序。
2、雅虎开源的web爬虫工具 https://github.com/yahoo/anthelion3、https://github.com/code4craft/webmagic · GitHub ,国人 黄亿华 先生的良心大作。文档在这里 http://webmagic.io/docs/zh/4、nutch https://github.com/apache/nutch apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块。
5、https://github.com/ShenJianShou/crawler_samples 没有找到源代码,属于云爬虫;jsoup包含http工具以及分析页面的工具包 https://jsoup.org/okhttpshttp工具包
6、Spiderman http://git.oschina.net/l-weiwei/Spiderman2 最后更新一个月前
7、SeimiCrawler https://github.com/zhegexiaohuozi/SeimiCrawler 最后更新一个月前神射手
8、WebCollector https://github.com/CrawlScript/WebCollector 最后更新四个月前
9、Heritrix https://github.com/internetarchive/heritrix3 比较成熟,用的人比较多
10、Gecco https://github.com/xtuhcy/gecco
11、WebMagic https://github.com/code4craft/webmagic (个人使用过这个)
- java 爬虫框架收集
- java 网络爬虫框架
- java 爬虫框架 webmagic
- Java爬虫框架
- Java爬虫框架
- Java爬虫框架
- WebMagic Java爬虫框架初探
- 一种可行性Java爬虫框架
- Java爬虫框架(一)--架构设计
- Java爬虫框架(二)--模块设计
- Java爬虫框架WebMagic的使用总结
- Java爬虫框架:WebMagic一(入门)
- Java爬虫框架WebMagic的使用总结
- Java爬虫框架WebMagic的使用总结
- Java开源爬虫框架crawler4j
- JAVA优秀开源框架收集
- JAVA优秀开源框架收集
- 爬虫框架
- 数据库索引原理及优化2
- 4种构建流的方式实例
- serialVersionUID的作用以及如何用idea自动生成实体类的serialVersionUID
- Android 将代码整理后重新上传svn的不同地址进行代码管理
- JAVA集合类汇总
- java 爬虫框架收集
- 共享单车10亿用户押金损失,企业“信用免押”后迅速破产?
- ORACLE ACFS 文件系统的扩容 oracle 官方文档
- C# for,foreach 异步多线程问题
- 截图快捷键
- 使用springcloud开发测试问题总结
- Coursera Machine Learning 第七周week7ex6Support Vector Machines编程全套满分题目+注释选做
- js实现按回车自动登录功能
- Levko and Permutation CodeForces