Nutch-2.2.1学习之一Nutch简介
来源:互联网 发布:js返回true false 编辑:程序博客网 时间:2024/05/29 06:46
Nutch起源于ApacheLucene项目,已经是一个高度可扩展和可伸缩的开源网络爬虫软件项目,并且实现了多元化,包括两个版本的代码库,即:
1. Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。
2. Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,新版本通过使用 Apache Gora™处理对象的持久映射使得存储从任何特定的底层数据存储分离出来。这意味着我们可以实现一个极其灵活多变的、用来存储任何东西的模型(抓取时间、状态、内容、分析的文本、外链接、内链接等)使其集成到许多NoSQL存储解决方案。
上面的内容直接翻译自Nutch的官方网站http://nutch.apache.org/,从上面的信息可以了解到:
1. Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容。
2. 现在Nutch分为两个版本,1.x和2.x。1.x最新版本为1.7,2.x最新版本为2.2.1。
3. 两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Accumulo、Cassandra、MySQL、DataFileAvroStore、AvroStore等NoSQL。
现在大体上已经对Nutch有了大概的了解,那为什么要学习Nutch呢?学习Nutch的初衷是源于当今比较流行的大数据,开始的想法是获取网络上的信息,经由Hadoop处理后存储在HBase中,方便后续数据分析。对那些想学习大数据而又苦于没有数据源的人,我们可以通过Nutch自己动手构建大规模数据,创建属于自己的大数据。
- Nutch-2.2.1学习之一Nutch简介
- Nutch-2.2.1学习之一Nutch简介
- Nutch-2.2.1学习之三Nutch配置文件
- Nutch-2.2.1学习之九Nutch过滤URL实践
- nutch简介
- Nutch简介
- Nutch-2.2.1----Nutch过滤URL实践
- Nutch 快速入门(Nutch 2.2.1)
- Nutch 快速入门(Nutch 2.2.1)
- Nutch 快速入门(Nutch 2.2.1)
- 学习Nutch
- 学习nutch
- nutch学习
- nutch学习
- nutch
- nutch
- Nutch
- Nutch
- 最短路(最短路)
- 64位 centos 6.4 rrdtool 1.4.8源码安装
- Warning: Call-time pass-by-reference has been deprecated解决方法
- 初识python psutil
- CloudFoundry admin-ui的运行配置方法
- Nutch-2.2.1学习之一Nutch简介
- JSP的九个内置对象介绍及用法
- linux修改网关和ip
- 【Solr专题之九】SolrJ教程
- Resolving LVM and Hard Disk PVID Issues 解决LVM和硬盘PVID的问题
- 让WordPress不同的分类目录的文章调用不同的模板
- JSP九大内置对象详解
- PHP运行出现Notice : Use of undefined constant 的解决办法
- RadioGroup与CheckBox