Hadoop小结连载:Hadoop概述

来源:互联网 发布:金山软件2017业绩 编辑:程序博客网 时间:2024/04/27 00:40

结合自己学习Hadoop的过程,将每天的点滴记录下来。


一 Hadoop简介


二 Hadoop分布式文件系统


三 Hadoop安装与配置


四 Hadoop I/O


五 MapReduce应用开发


六 MapReduce工作机制


七 MapReduce类型和格式


八 MapReduce特性


九管理Hadoop


Hadoop简介

1 Hadoop概述

2 Hadoop历史

3 功能与作用

4 Hadoop的优势

5 Hadoop应用现状和发展趋势

6 Hadoop项目及其结构


1:Hadoop简介


2:Hadoop历史


3:功能与作用


4:Hadoop的优势


5:Hadoop应用现状和发展趋势


6:Hadoop项目及其结构


6.1 Core/Common

为Hadoop及其他子项目提供常用工具,主要包括FileSystem(一组分布式文件系统)和通用的IO组件与接口(序列化、Java RPC和持久化数据结构)。
FileSystem:是Hadoop中的一个文件系统接口,适用于多种文件系统,如:
Local、HDFS(Hadoop分布式文件系统)、FTP(有Ftp服务器支持的文件系统)、HFTP(在HTTP上提供对HDFS只读访问的文件系统,用户多个Hadoop集群并行复制)、S3(由Amazon S3)支持的文件系统。
RPC(RemoteProcedure Call Protocol)——远程过程调用协议:它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
序列化:将对象转化为字节流的方法,或者用字节流描述对象的方法,反序列化是将字节流转化为对象的方法,目的是进程间通信和数据持久化存储。
持久化数据结构:文本文件、SequenceFile(二进制文件,可存储对象blob)、MapFile(有顺序和索引的SequenceFile )
6.2 Avro:独立于编程语言的数据序列化系统,用于非Java客户端对Hadoop调用(C、C++、Python和Ruby等) 。
6.3 MapReduce:一种编程模型,用与大规模数据集(大于1TB)的并行计算
6.4 HDFS:分布式文件系统,用于大规模数据分布式存储。
6.5 Chukwa:开源的数据搜集系统,用于监控和分析大型分布式系统
6.6 Hive:SQL语言编译成MapReduce程序
6.7 HBase:分布式、面向列的开源数据库
6.8 Pig:Pig Latin语言编译成MapReduce程序
6.9 ZooKeeper: 分布式协调服务,提供分布式锁之类的基本服务用于构建分布式应用

0 0
原创粉丝点击