Hadoop 历史

来源:互联网 发布:杜兰特对位科比数据 编辑:程序博客网 时间:2024/05/17 22:50
谈到Hadoop,不得不提Hadoop之父Doug Cutting,Doug Cutting,是软件基金会的主席, 在他的主导下,成功创建了Apache Lucene,Nouth,以及Hadoop等多个优秀的开源项目。在最开始的时候,Hadoop只是Lucene的子项目Nouth的一部分,Apache Lucene是全球第一个开源的全文检索引擎工具包,它具备完成的查询引擎和索引引擎功能,同时具备部分文本分析引擎,软件开发人员可以在此基础上建立起完成的全文检索引擎。Nutch是开源的基于Lucene的网页搜索引擎,在Lucene的基础上加入了网页抓取,网页解析等功能。目标是要创建一个完整的WEB搜索引擎。按照Doug Cutting当时的设想,作为开源项目的Nouth,它的功能类似于Google等商业搜索引擎。按照这个设计目标,Nouth就必须部署在大规模分布式集群上,能够在短时间内处理数十亿个网页。这种情况下分布式任务处理,故障恢复和负载均衡等问题都是必须要解决的难题。Doug Cutting打算在Nouth单独创建一个组件来完成这些功能。就在他设计解决方案的时候,2004年Google发表了两篇重要论文,给他带来了巨大的启发。第一篇论文介绍了Google File System(谷歌分布式文件存储系统),第二篇论文介绍的事MapReduce架构,解决了分布式任务处理的难题。谷歌公司声称,借助这两种技术,使搜索引擎的性能得到了极大的提升。Doug Cutting立即意识到,这些技术同样适用于Nouth.并带领他的团队成功移植了这俩种技术。将其作为一个开源项目,命名为Hadoop。最终Hadoop成为Apache基金会的顶级项目。Hadoop官网:http://hadoop.apache.org/,在官网主页上,Hadoop会及时发表Hadoop的最新动态,并且已经发布了大量的开发文档,那些文档都是最权威的Hadoop教程,是初学者的天堂!
原创粉丝点击