hadoop生态系统组件目前的理解（先记录，有些地方理解不正确，后面修改）

来源：互联网发布：linux双系统启动顺序编辑：程序博客网时间：2024/06/08 09:25

一，yarn

ResourceManager、Nodemanager、App Master。

ResourceManager拿到任务后，根据掌握的各个NodeManager的资源情况，决定在哪些主机上创建App Master。

各个App Master与本机的NodeManager申请Container后，在本机运行启动多个map和reduce。

Hadoop 新 MapReduce 框架 Yarn 详解

hadoop杂记-为什么会有Map-reduce v2 (Yarn)

YARN/MRv2 Resource Manager深入剖析—RM总体架构

二，hdfs

NameNode、SecondaryNameNode、DataNode。

NameNode就是Index的作用。没有什么好说的。如果有机器Down掉了，NameNode会从备用机架上的节点找出备份返回。

Hadoop中Namenode单点故障的解决方案分析

【HBase】图解 HDFS 工作原理

三，ZooKeeper

一致性服务的组件。

ZooKeeper典型应用场景

利用Zookeeper对HDFS中Namenode单点失败的改进方法

zookeeper原理

四，HBase

kv，只支持一级index。

Reference Guide

Hbase 使用方法

HBase在淘宝的应用和优化小结

HBase在腾讯大数据的应用实践

HBase在内容推荐引擎系统中的应用

HBase基本数据操作详解

Hbase的存储 Rowkey设计

HBase 系统架构

hbase shell基础和常用命令详解

五，Hive

用于数据仓库，表级别的处理。不建立索引，不是用来高速查询的。

hive应用实例

hive介绍

六，Oozie

多个Map Reduce程序的调度。配置xml。

Oozie简介

七，Sqoop

主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

利用SQOOP将数据从数据库导入到HDFS

八，Hue

Hadoop可视化分析利器之Hue

九，Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

flume 1.4的介绍及使用示例

应用Flume+HBase采集和存储日志数据

让你系统认识flume及安装和使用flume1.5传输数据到hadoop2.2

十，Impala

Impala入门笔记

十一，Pig

Apache Pig的一些基础概念及用法总结

Getting Started

0 0