常见的可用的爬虫项目

来源:互联网 发布:besiege mac版 编辑:程序博客网 时间:2024/04/29 23:09
  •  RBSE 是第一个发布的爬虫。它有两个基础程序。第一个程序“spider”,抓
取队列中的内容到一个关系数据库中;第二个程序“mite”,是一个修改后的WWW
的ASCII 浏览器,负责从网络上下载页面。
  •  WebCrawler 是第一个公开可用的,用来建立全文索引的一个子程序,它使用
WWW 库下载页面,使用宽度优先算法来解析获得URL 并对其进行排序,并包括
一个根据选定文本和查询相似程度爬行的实时爬虫。
  • World Wide Web Worm 是一个用来为文件建立包括标题和URL 简单索引的爬
虫。索引可以通过grep 式的Unix 命令来搜索。
  • CobWeb 使用了一个中央“调度者”和一系列的“分布式的搜集者”的爬虫框
架。搜集者解析下载的页面并把找到的URL 发送给调度者,然后调度者反过来分
配给搜集者。调度者使用深度优先策略,并且使用平衡礼貌策略来避免服务器超
载。爬虫是使用Perl 语言编写的。
  •  Mercator 是一个分布式的,模块化的使用Java 语言编写的网络爬虫。它的模
块化源自于使用可互换的“协议模块”和“处理模块”。协议模块负责怎样获取
网页(例如使用HTTP),处理模块负责怎样处理页面。标准处理模块仅仅包括了解
析页面和抽取URL,其他处理模块可以用来检索文本页面,或者搜集网络数据。
  • WebFountain 是一个与Mercator 类似的分布式的模块化的爬虫,但是使用C++
语言编写的。它的特点是一个管理员机器控制一系列的蚂蚁机器。经过多次下载
页面后,页面的变化率可以推测出来。这时,一个非线性的方法必须用于求解方
程以获得一个最大的新鲜度的访问策略。作者推荐在早期检索阶段使用这个爬虫,
然后用统一策略检索,就是所有页面都使用相同的频率访问。
  •  PolyBot 是一个使用C++和Python 语言编写的分布式网络爬虫。它由一个爬虫
管理者,一个或多个下载者,和一个或多个DNS 解析者组成。抽取到的URL 被
添加到硬盘的一个队列里面,然后使用批处理的模式处理这些URL。
  •  WebRACE 是一个使用Java 实现的,拥有检索模块和缓存模块的爬虫,它是
一个很通用的称作eRACE 的系统的一部分。系统从用户方得到下载页面的请求,
爬虫的行为有点像一个聪明的代理服务器。系统还监视订阅网页的请求,当网页
发生改变的时候,它必须使爬虫下载更新这个页面并且通知订阅者。WebRACE
最大的特色是,当大多数爬虫都从一组URL 开始的时候,WebRACE 可以连续地
接收初始抓取的URL 地址。
  •  Ubicrawer 是一个使用Java 语言编写的分布式爬虫。它没有中央程序,但有一
组完全相同的代理组成,分配功能通过主机前后一致的散列计算进行。这里没有
重复的页面,除非爬虫崩溃了(然后,另外一个代理就会接替崩溃的代理重新开始
抓取)。爬虫设计为高伸缩性。
  •  FAST Crawler 是一个分布式的爬虫,在Fast Search & Transfer 中使用。节点
之间只交换发现的链接。在抓取任务分配上,静态的映射超级链接到爬虫机器。
实现了增量式抓取,优先抓更新活跃的网页。
  •  Labrador 是一个工作在开源项目Terrier Search Engine 上的非开源的爬虫。
  •  TeezirCrawler 是一个非开源的可伸缩的网页抓取器,在Teezir 上使用。该程
序被设计为一个完整的可以处理各种类型网页的爬虫,包括各种JavaScript 和
HTML 文档。爬虫既支持主题检索也支持非主题检索。
  •  Spinn3r 是一个通过博客构建Tailrank.com 反馈信息的爬虫。Spinn3r 是基于
Java 的,它的大部分体系结构都是开源的。

  •  HotCrawler 是一个使用C 和PHP 语言编写的爬虫。
  •  ViREL Microformats Crawler 搜索公众信息作为嵌入网页的一小部分。
开源爬虫除了已经分析过的Heritrix,还有下面的一些:
  •  DataparkSearch 是一个在GNU GPL 许可下发布的爬虫搜索引擎。
  •  GNU Wget 是一个在GPL 许可下,使用C 语言编写的命令行式的爬虫。它主
要用于网络服务器和FTP 服务器的镜像。
  •  Ht://Dig 在它和索引引擎中包括了一个网页爬虫。
  •  HTTrack 用网络爬虫创建网络站点镜像,以便离线观看。它使用C 语言编写,
在GPL 许可下发行。
  •  ICDL Crawler 是一个用C++语言编写、跨平台的网络爬虫。它仅仅使用空闲
的CPU 资源,在ICDL 标准上抓取整个站点。
  •  JSpider 是一个在GPL 许可下发行的、高度可配置的、可定制的网络爬虫引擎。
  • Larbin 是由Sebastien Ailleret 开发的C++语言实现的爬虫。
  • Webtools4larbin 是由Andreas Beder 开发的。
  •  Methabot 是一个使用C 语言编写的高速优化的,使用命令行方式运行的,在
2-clause BSD 许可下发布的网页检索器。它的主要特性是高可配置性、模块化;它
检索的目标可以是本地文件系统,HTTP 或者FTP。
  •  Nutch 是一个使用Java 编写,在Apache 许可下发行的爬虫。它可以用来连接
Lucene 的全文检索套件。
  •  Pavuk 是一个在GPL 许可下发行的,使用命令行的Web 站点镜像工具,可以
选择使用X11 的图形界面。与GNU Wget 和HTTrack 相比,它有一系列先进的特
性,如以正则表达式为基础的文件过滤规则和文件创建规则。
  •  WebVac 是斯坦福WebBase 项目使用的一个爬虫。
  •  WebSPHINX 是一个由Java 类库构成的,基于文本的搜索引擎。它使用多线
程进行网页检索和HTML 解析,拥有一个图形用户界面用来设置开始的种子URL
和抽取下载的数据。
  •  WIRE-网络信息检索环境是一个使用C++语言编写、在GPL 许可下发行的爬
虫,内置了几种页面下载安排的策略,还有一个生成报告和统计资料的模块,所
以,它主要用于网络特征的描述。
  •  LWP:RobotUA 是一个在Perl 5 许可下发行的,可以优异地完成并行任务的
Perl 类库构成的爬虫。
  •  Web Crawler 是一个用C#语言编写的开放源代码的网络检索器。
  •  Sherlock Holmes 用于收集和检索本地和网络上的文本类数据(文本文件,网
页),该项目由捷克门户网站中枢(Czech web portal Centrum)赞助并且在该网站使
用;它同时也在Onet.pl 中使用。
  • YaCy 是一个基于P2P 网络的免费的分布式搜索引擎。
  •  Ruya 是一个在宽度优先方面表现优秀,基于等级抓取的开放源代码的网络爬
虫。其在抓取英语和日语页面方面表现良好,在GPL 许可下发行,并且完全使用
Python 语言编写。
  •  Universal Information Crawler 是快速发展的网络爬虫,用于检索、存储和分析
数据。
  •  Agent Kernel 是一个当爬虫抓取时,用来进行安排、并发和存储的Java 框架。
  •  Arachnod.net 是一个使用C#语言编写,需要SQL Server 2005 支持的,在GPL
许可下发行的、多功能的、开源的机器人。它可以用来下载、检索和存储包括电
子邮件地址、文件、超链接、图片和网页在内的各种数据。
原创粉丝点击