常见的可用的爬虫项目

来源：互联网发布：besiege mac版编辑：程序博客网时间：2024/04/29 23:09

RBSE 是第一个发布的爬虫。它有两个基础程序。第一个程序“spider”，抓

取队列中的内容到一个关系数据库中；第二个程序“mite”，是一个修改后的WWW
的ASCII 浏览器，负责从网络上下载页面。

WebCrawler 是第一个公开可用的，用来建立全文索引的一个子程序，它使用

WWW 库下载页面，使用宽度优先算法来解析获得URL 并对其进行排序，并包括
一个根据选定文本和查询相似程度爬行的实时爬虫。

World Wide Web Worm 是一个用来为文件建立包括标题和URL 简单索引的爬

虫。索引可以通过grep 式的Unix 命令来搜索。

CobWeb 使用了一个中央“调度者”和一系列的“分布式的搜集者”的爬虫框

架。搜集者解析下载的页面并把找到的URL 发送给调度者，然后调度者反过来分
配给搜集者。调度者使用深度优先策略，并且使用平衡礼貌策略来避免服务器超
载。爬虫是使用Perl 语言编写的。

Mercator 是一个分布式的，模块化的使用Java 语言编写的网络爬虫。它的模

块化源自于使用可互换的“协议模块”和“处理模块”。协议模块负责怎样获取
网页(例如使用HTTP)，处理模块负责怎样处理页面。标准处理模块仅仅包括了解
析页面和抽取URL，其他处理模块可以用来检索文本页面，或者搜集网络数据。

WebFountain 是一个与Mercator 类似的分布式的模块化的爬虫，但是使用C++

语言编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过多次下载
页面后，页面的变化率可以推测出来。这时，一个非线性的方法必须用于求解方
程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫，
然后用统一策略检索，就是所有页面都使用相同的频率访问。

PolyBot 是一个使用C++和Python 语言编写的分布式网络爬虫。它由一个爬虫

管理者，一个或多个下载者，和一个或多个DNS 解析者组成。抽取到的URL 被
添加到硬盘的一个队列里面，然后使用批处理的模式处理这些URL。

WebRACE 是一个使用Java 实现的，拥有检索模块和缓存模块的爬虫，它是

一个很通用的称作eRACE 的系统的一部分。系统从用户方得到下载页面的请求，
爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求，当网页
发生改变的时候，它必须使爬虫下载更新这个页面并且通知订阅者。WebRACE
最大的特色是，当大多数爬虫都从一组URL 开始的时候，WebRACE 可以连续地
接收初始抓取的URL 地址。

Ubicrawer 是一个使用Java 语言编写的分布式爬虫。它没有中央程序，但有一

组完全相同的代理组成，分配功能通过主机前后一致的散列计算进行。这里没有
重复的页面，除非爬虫崩溃了(然后，另外一个代理就会接替崩溃的代理重新开始
抓取)。爬虫设计为高伸缩性。

FAST Crawler 是一个分布式的爬虫，在Fast Search & Transfer 中使用。节点

之间只交换发现的链接。在抓取任务分配上，静态的映射超级链接到爬虫机器。
实现了增量式抓取，优先抓更新活跃的网页。

Labrador 是一个工作在开源项目Terrier Search Engine 上的非开源的爬虫。

TeezirCrawler 是一个非开源的可伸缩的网页抓取器，在Teezir 上使用。该程

序被设计为一个完整的可以处理各种类型网页的爬虫，包括各种JavaScript 和
HTML 文档。爬虫既支持主题检索也支持非主题检索。

Spinn3r 是一个通过博客构建Tailrank.com 反馈信息的爬虫。Spinn3r 是基于

Java 的，它的大部分体系结构都是开源的。

HotCrawler 是一个使用C 和PHP 语言编写的爬虫。

ViREL Microformats Crawler 搜索公众信息作为嵌入网页的一小部分。

开源爬虫除了已经分析过的Heritrix，还有下面的一些：

DataparkSearch 是一个在GNU GPL 许可下发布的爬虫搜索引擎。

GNU Wget 是一个在GPL 许可下，使用C 语言编写的命令行式的爬虫。它主

要用于网络服务器和FTP 服务器的镜像。

Ht://Dig 在它和索引引擎中包括了一个网页爬虫。

HTTrack 用网络爬虫创建网络站点镜像，以便离线观看。它使用C 语言编写，

在GPL 许可下发行。

ICDL Crawler 是一个用C++语言编写、跨平台的网络爬虫。它仅仅使用空闲

的CPU 资源，在ICDL 标准上抓取整个站点。

JSpider 是一个在GPL 许可下发行的、高度可配置的、可定制的网络爬虫引擎。

Larbin 是由Sebastien Ailleret 开发的C++语言实现的爬虫。

Webtools4larbin 是由Andreas Beder 开发的。

Methabot 是一个使用C 语言编写的高速优化的，使用命令行方式运行的，在

2-clause BSD 许可下发布的网页检索器。它的主要特性是高可配置性、模块化；它
检索的目标可以是本地文件系统，HTTP 或者FTP。

Nutch 是一个使用Java 编写，在Apache 许可下发行的爬虫。它可以用来连接

Lucene 的全文检索套件。

Pavuk 是一个在GPL 许可下发行的，使用命令行的Web 站点镜像工具，可以

选择使用X11 的图形界面。与GNU Wget 和HTTrack 相比，它有一系列先进的特
性，如以正则表达式为基础的文件过滤规则和文件创建规则。

WebVac 是斯坦福WebBase 项目使用的一个爬虫。

WebSPHINX 是一个由Java 类库构成的，基于文本的搜索引擎。它使用多线

程进行网页检索和HTML 解析，拥有一个图形用户界面用来设置开始的种子URL
和抽取下载的数据。

WIRE-网络信息检索环境是一个使用C++语言编写、在GPL 许可下发行的爬

虫，内置了几种页面下载安排的策略，还有一个生成报告和统计资料的模块，所
以，它主要用于网络特征的描述。

LWP：RobotUA 是一个在Perl 5 许可下发行的，可以优异地完成并行任务的

Perl 类库构成的爬虫。

Web Crawler 是一个用C#语言编写的开放源代码的网络检索器。

Sherlock Holmes 用于收集和检索本地和网络上的文本类数据(文本文件，网

页)，该项目由捷克门户网站中枢(Czech web portal Centrum)赞助并且在该网站使
用；它同时也在Onet.pl 中使用。

YaCy 是一个基于P2P 网络的免费的分布式搜索引擎。

Ruya 是一个在宽度优先方面表现优秀，基于等级抓取的开放源代码的网络爬

虫。其在抓取英语和日语页面方面表现良好，在GPL 许可下发行，并且完全使用
Python 语言编写。

Universal Information Crawler 是快速发展的网络爬虫，用于检索、存储和分析

数据。

Agent Kernel 是一个当爬虫抓取时，用来进行安排、并发和存储的Java 框架。

Arachnod.net 是一个使用C#语言编写，需要SQL Server 2005 支持的，在GPL

许可下发行的、多功能的、开源的机器人。它可以用来下载、检索和存储包括电
子邮件地址、文件、超链接、图片和网页在内的各种数据。