云计算笔记二：Hadoop概述

来源：互联网发布：知乎,京九高铁编辑：程序博客网时间：2024/05/22 11:46

Hadoop名字的由来

Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。

这里写图片描述

什么是Hadoop

Hadoop官网

The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.

正如官网所说：
Apache Hadoop项目开发可靠，可扩展，分布式计算的开源软件。

Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单台服务器扩展到数千台机器，每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性，而是设计用于在应用层检测和处理故障，从而在一组计算机之上提供高可用性服务。
这里写图片描述

Hadoop的核心组件

Hadoop Common: 支持其他Hadoop模块的常用实用程序。
Hadoop Distributed File System (HDFS): 分布式文件系统，提供对应用程序数据的高吞吐量访问。
Hadoop YARN:作业调度和集群资源管理的框架。
Hadoop MapReduce: 一个基于YARN的大型数据集并行处理系统。

Hadoop发展史

2002年10月，Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。
2003年10月，Google发表Google File System论文。
2004年7月，Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能，即后来HDFS的前身。
2004年10月，Google发表了MapReduce论文。
2005年2月，Mike Cafarella在Nutch中实现了MapReduce的最初版本。
2005年12月，开源搜索项目Nutch移植到新框架，使用MapReduce和NDFS(Nutch Distributed File System )来运行，在20个节点稳定运行。
2006年1月，Doug Cutting加入雅虎，Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。
2006年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年2月，Yahoo!的网格计算团队采用Hadoop。
2006年3月，Yahoo!建设了第一个Hadoop集群用于开发。
2006年4月，第一个Apache Hadoop发布。
2006年4月，在188个节点上（每个节点10GB）运行排序测试集需要47.9个小时。
2006年5月，Yahoo!建立了一个300个节点的Hadoop研究集群。
2006年5月，在500个节点上运行排序测试集需要42个小时（硬件配置比4月的更好）。
2006年11月，研究集群增加到600个节点。
2006年11月，Google发表了Bigtable论文，这最终激发了HBase的创建。
2006年12月，排序测试集在20个节点上运行1.8个小时，100个节点上运行3.3小时，500个节点上运行5.2小时，900个节点上运行7.8个小时。
2007年1月，研究集群增加到900个节点。
2007年4月，研究集群增加到两个1000个节点的集群。
2007年10月，第一个Hadoop用户组会议召开，社区贡献开始急剧上升。
2007年，百度开始使用Hadoop做离线处理。
2007年，中国移动开始在“大云”研究中使用Hadoop技术。
2008年，淘宝开始投入研究基于Hadoop的系统——云梯，并将其用于处理电子商务相关数据。
2008年1月，Hadoop成为Apache顶级项目。
2008年2月，Yahoo!运行了世界上最大的Hadoop应用，宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
2008年4月，在900个节点上运行1TB排序测试集仅需209秒，成为世界最快。
2008年6月，Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
2008年7月，Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序，比上一年的纪录保持者保持的297秒快了将近90秒。
2008年8月，第一个Hadoop商业化公司Cloudera成立。
2008年10月，研究集群每天装载10TB的数据。
2008年11月，Apache Pig的最初版本发布。
2009年3月，17个集群总共24000台机器。
2009 年3月，Cloudera推出世界上首个Hadoop发行版——CDH（Cloudera’s Distribution including Apache Hadoop）平台，完全由开放源码软件组成。
2009年4月，赢得每分钟排序，59秒内排序500GB（在1400个节点上）和173分钟内排序100TB数据（在3400个节点上）。
2009年5月，Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年6月，Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版，后被誉为Hadoop圣经。
2009年7月，Hadoop Core项目更名为Hadoop Common;
2009年7月，MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
2009年7月，Avro 和 Chukwa 成为Hadoop新的子项目。
2009年8月，Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。
2009年10月，首届Hadoop World大会在纽约召开。
2010年5月，Avro脱离Hadoop项目，成为Apache顶级项目。
2010年5月，HBase脱离Hadoop项目，成为Apache顶级项目。
2010年5月，IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights，包括基础版和企业版。
2010年9月，Hive( Facebook) 脱离Hadoop，成为Apache顶级项目。
2010年9月，Pig脱离Hadoop，成为Apache顶级项目。
2010年-2011年，扩大的Hadoop社区忙于建立大量的新组件（Crunch，Sqoop，Flume，Oozie等）来扩展Hadoop的使用场景和可用性。
2011年1月，ZooKeeper 脱离Hadoop，成为Apache顶级项目。
2011年3月，Apache Hadoop获得Media Guardian Innovation Awards 。
2011年3月， Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。
2011年5月，Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月，HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出，HCatalog主要用于解决数据存储、元数据的问题，主要解决HDFS的瓶颈，它提供了一个地方来存储数据的状态信息，这使得数据清理和归档工具可以很容易的进行处理。
2011年4月，SGI（Silicon Graphics International）基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
2011年5月，EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD，以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
2011年5月，在收购了Engenio之后， NetApp推出与Hadoop应用结合的产品E5400存储系统。
2011年6月，Calxeda公司发起了“开拓者行动”，一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。
2011年6月，数据集成供应商Informatica发布了其旗舰产品，产品设计初衷是处理当今事务和社会媒体所产生的海量数据，同时支持Hadoop。
2011年7月，Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司，旨在让Hadoop更加可靠，并让企业用户更容易安装、管理和使用Hadoop。
2011年8月，Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统，以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月，Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。
2012年3月，企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。
2012年8月，另外一个重要的企业适用功能YARN成为Hadoop子项目。
2012年10月，第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。
2014年2月，Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎，并成为Apache基金会顶级项目。
2015年2月，Hortonworks和Pivotal抱团提出“Open Data Platform”的倡议，受到传统企业如Microsoft、IBM等企业支持，但其它两大Hadoop厂商Cloudera和MapR拒绝参与。
2015年10月，Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案——Kudu。
2015年12月，Cloudera发起的Impala和Kudu项目加入Apache孵化器。

更多内容–>Hadoop十年解读与发展预测

Hadoop能做什么

这里写图片描述

Hadoop的优势

高可靠性

数据储存：数据块多副本
数据计算：重新调度作业计算

高扩展性

存储/计算资源不够时，可以横向的线性扩展机器
一个集群中可以包含数千计的节点

其他

存储在廉价机器上，降低成本
成熟的生态圈

狭义Hadoop与广义Hadoop

狭义Hadoop：是一个适合大数据分布式储存（HDFS）、分布式计算（MapReduce）和资源调度（YARN）的平台。

广义Hadoop：指的是Hadoop生态系统，Hadoop生态系统是一个很庞大的概念，hadoop是其中最重要最基础的一个部分；生态系统中的每一个子系统只解决某一个特定的问题域（甚至可能更窄），不搞统一型的一个全能系统，而是小而精的多个小系统。

Hadoop生态系统

这里写图片描述

Hadoop生态系统介绍
Hadoop生态系统

/** **TODO　我的理解：待续》》》》 **/

Hadoop常用发行版及选型

这里写图片描述

推荐使用第二中，避免jar包冲突。
下载地址：CDH

阅读全文

0 0