Hadoop的发行版本介绍

来源:互联网 发布:godaddy域名赎回后解析 编辑:程序博客网 时间:2024/06/04 17:42

Hadoop 的发行版除了社区的 Apache Hadoop 外, Cloudera , Hortonworks MapR , EMC , IBM , Intel , 华为 等都提供了自己的商业版本。商业版主要是提供了 专业的技术支持 ,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各个发行版做简单介绍。

2008 年成立的 Cloudera   是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop的商用解决方案,主要是包括 支持 , 咨询服务 , 培训 。 2009 年 Hadoop 的创始人DougCutting 也加盟 Cloudera 公司。 Cloudera 产品主要为 CDH , Cloudera   Manager , Cloudera   Support 。 CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所增强。 Cloudera   Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。 Cloudera   Support 即是对 Hadoop 的技术支持。 Cloudera 的标价为 每年每个节点 4000 美元 。

2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建的公司。公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始协助雅虎开发 Hadoop ,这些工程师贡献了 Hadoop 80%的代码。雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官。 Hortonworks 的主打产品是 Hortonworks Data Platform (HDP) ,也同样是 100% 开源的产品, HDP 除了常见的项目外还包含了 Ambari ,一款开源的安装和管理系统。 HCatalog ,一个元数据管理系统, HCatalog 现已集成到 Facebook 开源的 Hive 中。

HDP 的 Datasheet 中描述的版本特点是:

集成和测试封装 —— HDP 包括稳定版本的 Apache Hadoop 的所有关键组件,集成和测试封装。

安装方便 —— HDP 包括一个现代化的,直观的用户界面的安装和配置工具。

管理和监控服务 —— HDP 包括直观的仪表板,为监测集群和建立警示。

数据集成服务 —— HDP 包括 Talend 大数据平台,领先的开源整合工具,轻松连接Hadoop 集群,而无需编写 Hadoop 代码的数据系统集成工具。

元数据服务 —— HDP 包括的 Apache HCatalog ,从而简化了 Hadoop 的应用程序之间和 Hadoop 和其他数据系统之间的数据共享。

高可用性 ——HDP 与成熟的高可用性解决方案的无缝集成。

定价以集群为基础, 每 10 个节点每年为 12500 美元 。

Cloudera 和 Hortonworks 均是在不断的提交代码完善 Apache Hadoop ,而 2009年成立的 MapR 公司在 Hadoop 领域显得有点特立独行,它提供了一款独特的发行版 。 Hadoop 在性能 ( 在 Hadoop1.X 及其之前的设计中,所有的 meta data 操作都要通过集中式的 NameNode 来进行, NameNode 有可能是性能的瓶颈 ;M/R 应用程序需要通过 NameNode 来访问 HDFS, 这就涉及到额外的进程切换和网络传输开销 ) ,可用性与扩展性 (NameNode , JobTracker 单点问题 ) ,企业级应用上的弱点 ( 比如完全可读写的文件系统, snapshot , mirror 等等 ) 各大厂商均知, MapR 则认为, Hadoop 的这些 缺陷来自于其架构设计本身 ,小修小补不能解决问题。他们选择了一条艰难得多的路:用新架构 重写 HDFS ,同时在 API 级别,和目前的 Hadoop 发行版保持兼容。这家 2009 年成立的创业公司,在蛰伏了两年之后,终于一鸣惊人,大放异彩。他们成功实现了 “ 构建一个 HDFS 的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无 NameNode 单点故障 (SPOF) ,并且在 API 上和开源版兼容,所以可以考虑将其作为替代方案 ” 。 MapR 版本不再需要单独的 NameNode机器,元数据分散在集群中,也类似数据默认存储三份,正如 OpenStack 对象存储系统 Swift 的设计。也不再需要用网络附加存储 (NAS) 来协助 NameNode 做元数据备份,提高了机器使用率。还有个重要的特点是可以使用 nfs 直接访问 hdfs ,提供了与旧有应用的兼容性。镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。据报道 MapR 标价也为 每年每个节点 4000 美元 。

MapR 有免费和商业两个版本,免费版本在功能上有所缩减。

EMC 的 GreenplumHD 是 基于 MapR 版本二次开发改造而成,特点同 MapR 。

 IBM 推出了 InfoSphereBigInsights 软件。该软件包括 Apache Hadoop 发行版、数据流编程风格的 Pig 、针对 IBM 的 DB2 数据库的连接件 以及 BigSheets ,后者是一种基于浏览器的、使用电子表格隐喻 (spreadsheet-metaphor) 的界面,用于探究和分析 Hadoop 里面的数据。 IBM 在 平台管理,安全认证,作业调度算法,与 DB2 及 netezza 的集成上做了增强 。从 IBM 中国开发中心信息管理总经理朱辉下面这句话就可以看出 IBM 对于 BigInsights 的定位: BigInsights 并没有替代 OLAP(Online Analytical Processing) 或 OLTP(OnlineTransaction Processing) 应用程序,但它可以整合其中,用于 “ 过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在 DBMS或数据仓库中 ” 。

传统的 硬件厂商 , Intel , 华为 也提供了 Hadoop 发行版。

Intel 的商业版本,主要是强调其能提供全面的 软硬件解决方案设计 , 针对硬件具有更好的性能优化 ,以及 提供集群管理工具和安装工具简化了 Hadoop 的安装和配置,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购 Intel 版本貌似动力不足。

华为 在硬件上具有天然的优势,在网络,虚拟化, PC 机等都有很强的硬件实力。华为的 FusionInsight Hadoop 版本 基于 Apache Hadoop ,构建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能,进程故障后系统自动 Failover ,无需人工干预,这个也是对 Hadoop 的小修补,远不如 MapR 解决的彻底。华为在 Hadoop 社区中的 Contributor 和 Committer 也是国内最多的,算是国内技术实力较强的公司。

          HDP版本是比较新的版本,目前与apache基本同步,因为Hortonworks内部大部分员工都是apache代码贡献者,尤其是Hadoop 2.0的贡献者。


此外,cdh4和apache hadoop 2.x版本属于下一代Hadoop(Hadoop 2.0),目前处于beta版,尚未发布稳定版,且目前使用的公司非常少,大部分处于调研阶段。

0 0
原创粉丝点击