Hadoop 历史

来源：互联网发布：杜兰特对位科比数据编辑：程序博客网时间：2024/05/17 22:50

谈到Hadoop，不得不提Hadoop之父Doug Cutting,Doug Cutting,是软件基金会的主席，在他的主导下，成功创建了Apache Lucene,Nouth,以及Hadoop等多个优秀的开源项目。在最开始的时候，Hadoop只是Lucene的子项目Nouth的一部分，Apache Lucene是全球第一个开源的全文检索引擎工具包，它具备完成的查询引擎和索引引擎功能，同时具备部分文本分析引擎，软件开发人员可以在此基础上建立起完成的全文检索引擎。Nutch是开源的基于Lucene的网页搜索引擎，在Lucene的基础上加入了网页抓取，网页解析等功能。目标是要创建一个完整的WEB搜索引擎。按照Doug Cutting当时的设想，作为开源项目的Nouth,它的功能类似于Google等商业搜索引擎。按照这个设计目标，Nouth就必须部署在大规模分布式集群上，能够在短时间内处理数十亿个网页。这种情况下分布式任务处理，故障恢复和负载均衡等问题都是必须要解决的难题。Doug Cutting打算在Nouth单独创建一个组件来完成这些功能。就在他设计解决方案的时候，2004年Google发表了两篇重要论文，给他带来了巨大的启发。第一篇论文介绍了Google File System(谷歌分布式文件存储系统)，第二篇论文介绍的事MapReduce架构，解决了分布式任务处理的难题。谷歌公司声称，借助这两种技术，使搜索引擎的性能得到了极大的提升。Doug Cutting立即意识到，这些技术同样适用于Nouth.并带领他的团队成功移植了这俩种技术。将其作为一个开源项目，命名为Hadoop。最终Hadoop成为Apache基金会的顶级项目。Hadoop官网：http://hadoop.apache.org/,在官网主页上，Hadoop会及时发表Hadoop的最新动态，并且已经发布了大量的开发文档，那些文档都是最权威的Hadoop教程，是初学者的天堂！

阅读全文

0 0