Hadoop系列介绍 (一)

来源:互联网 发布:crossover for mac 编辑:程序博客网 时间:2024/06/05 19:12
 

笔者在业界领先的跨国公司设计和实现一款云计算软件,同时也接触到了Hadoop这个优秀的开源云计算平台(平台, 在Wiki百科上(Computing platform, a framework on which applications may be run. 翻译过来是一个框架,使得应用可以基于其上加以运行

),在这里做个分享,希望能给大家一点点小小的启发。

首先介绍一下Hadoop的概况或是些背景知识:

大家知道云计算来源于网格计算,它们解决问题的思路不同但目标和追求的结果是类似的。在网格计算领域,它希望借助于分布式操作系统,在一个分布式的系统环境里统一调配资源,分布执行计算,集中返回结果,应用程序只能看见一个巨大无边的计算环境,而不需了解具体的计算过程,如果运行在一个无限的资源空间一样。事实上这样做的结果是只能在指令级进行并行,也就是需要以指令为单位进行调度。如果不是在芯片级进行级联(那样的话就是大型甚至巨型机和机群了),而在分布式系统中通过网络来执行调度,其效率之低可想而之。网格计算之所以不了了之,迟迟不能推出有市场竞争力的产品,就因为此。既然整合底层所有的计算资源效率太低,那么可以从应用的角度入手,让应用稍微“感知”那么一点分布式计算,也无伤大雅吧。所以我们迎来了Hadoop。那么Hadoop作为云计算的一种方式(云计算有三种主要方式,以后将陆续介绍, 这里主要是PAAS,平台即服务),用HDFS整合了底层的存储资源(不含计算资源),并将计算逻辑划分为Map-Reduce两个阶段,一次Map来分布计算任务,再一次Reduce来整合各部分计算结果,不可谓不高明(当然,借鉴了Google的GFS和计算模型)。在后续的文章里,让我们来走近Hadoop。