Nutch-2.2.1学习之一Nutch简介

来源:互联网 发布:js返回true false 编辑:程序博客网 时间:2024/05/29 06:46

Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:

1.        Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。

2.        Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。

上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:

1.        Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。

2.        现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。

3.        两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBaseAccumuloCassandraMySQLDataFileAvroStoreAvroStoreNoSQL。

现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。

0 0
原创粉丝点击