Hadoop小结连载：Hadoop概述

来源：互联网发布：金山软件2017业绩编辑：程序博客网时间：2024/04/27 00:40

结合自己学习Hadoop的过程，将每天的点滴记录下来。

一 Hadoop简介

二 Hadoop分布式文件系统

三 Hadoop安装与配置

四 Hadoop I/O

五 MapReduce应用开发

六 MapReduce工作机制

七 MapReduce类型和格式

八 MapReduce特性

九管理Hadoop

一 Hadoop简介

1 Hadoop概述

2 Hadoop历史

3 功能与作用

4 Hadoop的优势

5 Hadoop应用现状和发展趋势

6 Hadoop项目及其结构

1：Hadoop简介

2：Hadoop历史

3：功能与作用

4：Hadoop的优势

5：Hadoop应用现状和发展趋势

6：Hadoop项目及其结构

6.1 Core/Common

为Hadoop及其他子项目提供常用工具，主要包括FileSystem（一组分布式文件系统）和通用的IO组件与接口（序列化、Java RPC和持久化数据结构）。

FileSystem：是Hadoop中的一个文件系统接口，适用于多种文件系统，如：

Local、HDFS（Hadoop分布式文件系统）、FTP（有Ftp服务器支持的文件系统）、HFTP（在HTTP上提供对HDFS只读访问的文件系统，用户多个Hadoop集群并行复制）、S3（由Amazon S3）支持的文件系统。

RPC（RemoteProcedure Call Protocol）——远程过程调用协议：它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

序列化：将对象转化为字节流的方法,或者用字节流描述对象的方法,反序列化是将字节流转化为对象的方法，目的是进程间通信和数据持久化存储。

持久化数据结构：文本文件、SequenceFile（二进制文件，可存储对象blob）、MapFile（有顺序和索引的SequenceFile ）

6.2 Avro：独立于编程语言的数据序列化系统，用于非Java客户端对Hadoop调用(C、C++、Python和Ruby等) 。

6.3 MapReduce：一种编程模型，用与大规模数据集（大于1TB）的并行计算

6.4 HDFS：分布式文件系统，用于大规模数据分布式存储。

6.5 Chukwa：开源的数据搜集系统，用于监控和分析大型分布式系统

6.6 Hive：SQL语言编译成MapReduce程序

6.7 HBase：分布式、面向列的开源数据库

6.8 Pig：Pig Latin语言编译成MapReduce程序

6.9 ZooKeeper: 分布式协调服务,提供分布式锁之类的基本服务用于构建分布式应用。

0 0