Amabri 2.1安装HDP2.3.2 之 一、HDP介绍

来源:互联网 发布:淘宝店铺的权重 编辑:程序博客网 时间:2024/04/30 10:26

一、HDP

(一)简介

HDP全称是Hortonworks Data Platform,是由一家美国大数据公司Hortonworks开发的企业级Hadoop平台。
Hortonworks致力于帮助客户利用Hadoop开源大数据平台管理数据。HDP是完全在开源的环境下设计、开发和构建的,它以 YARN 作为其架构中心,该平台支持一系列处理方法——批处理、交互式处理、实时处理。

(二)功能与特点

HDP的功能包括数据管理、数据访问、数据管制与集成、运营、安全性。图1.2.1是HDP的功能架构。
这里写图片描述
图1.2.1

1. 数据管理

这里写图片描述
图1.2.2

YARN和HDFS是HDP的核心组件。YARN是一种资源管理器,可以给上层应用提供统一的资源管理和调度。YARN将资源管理组件和任务处理组件分离,提供可插拔架构,可以支持广泛的数据访问方法。
HDFS 是一种分布式文件系统,它为大数据提供了有效可靠的存储,使得我们在大规模集群中以低成本更有效地存储共享数据集。

2. 数据访问

这里写图片描述
图1.2.3

(1)YARN
YARN给各种处理引擎提供基础,HDP允许用户和数据以多种并行方式进行交互,并不需要为每个数据集或应用程序建立单独的集群,这样应用程序可以以最佳方式和数据交互。
Strom和Spark能满足这些需求,HDP作为真正的数据平台,它基于YARN的架构能够使尽可能广泛的访问方法共存于集群中,而避免不必要的、昂贵的数据存储成本。
(2)数据访问方式
HDP提供的数据访问方式有批处理,脚本,交互式SQL查询, 使用NoSQL低延迟,基于Solr的搜索和流处理。
Apache MapReduce是Hadoop默认的处理引擎,已经得到了广泛的测试和信赖。Apache Pig作为一种脚本语言,可以在MapReduce和Apache Tez 上运行,能够做到对数据进行聚集、分类等。Apache Hive 可以进行交互式、批量SQL查询。而Apache Hbase 则提供及其快速的NoSQL访问。Apache Strom 能够实时处理流数据,即当数据流入HDFS时分析数据。

3.数据管理与集成

HDP是通过用语数据管理和集成的强大工具扩展数据访问和管理的,这些工具提供可靠可重复使用的以及简单的框架来管理数据流在 Hadoop 中的进出。Hortonworks 和所有数据管理提供商具有工程关系,支持将他们的工具与 HDP 进行协作、集成。

4. 安全性

HDP从多次层次角度加入、集成了安全性,它提供了用于身份验证、授权、可归责性以及数据保护的关键功能,确保 HDP 安全。HDP 在所有企业 Hadoop 功能上保持方法一致,而且确保我们可集成和扩展自己当前的安全解决方案,在企业现代化数据架构上提供单一、一致、安全的保护。

5 运营

HDP 提供一整套运营功能,使运营团队在企业数据生态系统中部署、监控和管理 Hadoop 群集。HDP不仅提供群集运行状况的可见性,还提供工具来管理配置优化性能。Apache Ambari 作为HDP的管理工具,提供 了API ,可在现有集群基础上简单容易地扩展服务,增加组件。

(三)集群部署选项

这里写图片描述
图1.3.1

HDP 为Hadoop提供了最广泛的部署选项:它支持从Windows Server或Linux,到虚拟云部署,是可移植性最高的Hadoop发行版,允许用户轻易地在不同部署类型之间进行迁移。
HDP不仅是开源的,而且是通过社区完全在开放的环境中构建的。虽然通过发布到github可以很方便的将专用hadoop扩展成开源的,但是随之而来会有兼容性问题。而社区导向的开发,通过结合跨各种公司的技术,质量更加可靠。对于企业而言,HDP为之提供了高度可靠、管理便捷、高扩展性的集群服务,也为大数据分析提供了十分有效的平台。

下一步 请见 二、需求配置说明
参考:
1. Hortonworks Data Platform

0 0
原创粉丝点击