Hadoop 学习总结

来源：互联网发布：阿里云主机租用编辑：程序博客网时间：2024/06/09 21:45

NameNode:

server:ClientProtocol

serviceRpcServer: DatanodeProtocol、NamenodeProtocol

DataNode:

ipcServer: InterDataNodeProtocol / ClientDataNodeProtocol

JobTracker :

interTrackerServer : InterTrackerProtocol / JobSubmissionProtocol

TaskTracker :

taskReportServer : TaskUmbilicalProtocol

-Dhadoop.log.dir=/home/shengbao/hadoop/log 指定JVM系统属性hadoop.log.dir(本地文件系统日志目录)

简介

Hadoop 的可靠性 ---因为Hadoop假设计算元素和存储会出现异常，因为它维护多个工作数据副本，在失败时候可以对失败的节点重新分布处理

Hadoop 的高效性 ---在MapReuce的思想下，Hadoop 是并行工作的，以加快任务处理速度

Hadoop 的可扩展 ---依赖于部署Hadoop 软件框架计算集群的规模，Hadoop的运算是可扩展的，具有处理PB级别的能力

Hadoop的组成

Hadoop Core 是Hadoop 的核心，提供了一个分布式文件系统（HDFS) ,并支持MapReduce分布式计算框架

Hbase 构造在Hadoop Core 之上，提供一个可扩展、分布式的数据库系统

ZooKeeper 是一个高可用、高可靠的协同工作系统、分布式程序可以用ZooKeeper保存并更新关键共享状态

Common 包括FileSystem 、RPC 和串行库

Avro 用于数据序列化

MapReduce 大规模数据集的并行运算

HDFS 分布式文件系统，检测盒快速回复硬件故障、流式的数据访问、简化一致性模型、通信协议TCP/IP

Chukwa

Pig

Hive

Sqoop

Job 客户端需要执行的一个工作单位，包括输入数据、MapReduce程序和配置信息

源代码目录结构:

hadoop-common-project

--hadoop-annotations

--hadoop-auth

-- *hadoop-common

hadoop-hdfs-project

-- *hadoop-hdfs

-- hadoophdfs-httpfs

hadoop-mapreduce-project

-- bin/conf

-- hadoop-mapreduce-client

--hadoop-mapreduce-client-app

-- *hadoop-mapreduce-client-common

-- *hadoop-mapreduce-client-core

-- hadoop-mapreduce-client-hs

-- hadoop-mapreduce-client-jobclient

-- hadoop-mapreduct-client-shuffle

hadoop-yarn-project

--hadoop-yarn

-- bin/conf

-- *hadoop-yarn-api

-- *hadoop-yarn-common

-- hadoop-yarn-server

-- *hadoop-yarn-server-common

-- *hadoop-yarn-server-nodemanager

-- hadoop-yarn-server-web-proxy

-- *hadoop-yarn-server-resourcemanager

-- hadoop-yarn-applications

-- hadoop-yarn-applications-distributedshell

-- hadoop-yarn-applications-unmanaged-am-launcher

-- *hadoop-yarn-client

0 0