Heritrix Crawler vs. Nutch Crawler
来源:互联网 发布:免备案php香港免费空间 编辑:程序博客网 时间:2024/04/29 23:27
Heritrix Crawler vs. Nutch Crawler
作者: Fenng | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.dbanotes.net/web/heritrix_crawler_vs_nutch_crawler.html
在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.
没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。
我对 Mohr 的发言整理一下。主要有以下几点:
主要目的不同。 Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
- Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
- Nutch 可以修剪内容,或者对内容格式进行转换。
- Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
- Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
- Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多。
暂时还没有看到 Doug Cutting 对二者比较的评价.
Heritrix 的架构示意图:
Nutch 的架构示意图:
- Heritrix Crawler vs. Nutch Crawler
- Heritrix-- 开源crawler
- Crawler
- Nutch Crawler工作流程
- Nutch Crawler工作流程
- nutch crawler 解析 下
- Dissecting The Nutch Crawler -Summary: Nutch crawler extension points
- Dissecting The Nutch Crawler -introduction
- Dissecting The Nutch Crawler -Factory classes: Overview
- Dissecting The Nutch Crawler -Factory classes: '''URLFilterFactory'''
- Dissecting The Nutch Crawler - The "nutch" shell script
- Dissecting The Nutch Crawler - Command "crawl": net.nutch.tools.CrawlTool
- Dissecting The Nutch Crawler - Command "inject": net.nutch.db.WebDBInjector
- Dissecting The Nutch Crawler -Command "generate": net.nutch.tools.FetchListTool
- Dissecting The Nutch Crawler -Command "fetch": net.nutch.fetcher.Fetcher
- Dissecting The Nutch Crawler -Aside: net.nutch.util.NutchConfig
- 深入学习heritrix---体系结构(Overview of the crawler)
- 深入学习heritrix---体系结构(Overview of the crawler)
- struts2获取request,session,application
- 如何在网页中插入FLV
- 一个女孩为了赌气让男孩去医院买血。
- html的meta标签、title 标签、Description标签、keyword 标签
- 关于java中url编码的问题
- Heritrix Crawler vs. Nutch Crawler
- 近期世界范围内地震频发,来个地震知识扫盲贴~
- jQuery的一些特性和用法:
- coolite 中GridPanel 导出excel
- 数据库查询汇总(2)
- linux shell 控制脚本执行次数
- TOASTER例子阅读(一)
- 解决MySQL乱码
- js 特效地址