Hadoop小结连载:Hadoop概述
来源:互联网 发布:金山软件2017业绩 编辑:程序博客网 时间:2024/04/27 00:40
结合自己学习Hadoop的过程,将每天的点滴记录下来。
一 Hadoop简介
二 Hadoop分布式文件系统
三 Hadoop安装与配置
四 Hadoop I/O
五 MapReduce应用开发
六 MapReduce工作机制
七 MapReduce类型和格式
八 MapReduce特性
九管理Hadoop
一 Hadoop简介
1 Hadoop概述
2 Hadoop历史
3 功能与作用
4 Hadoop的优势
5 Hadoop应用现状和发展趋势
6 Hadoop项目及其结构
1:Hadoop简介
2:Hadoop历史
3:功能与作用
4:Hadoop的优势
5:Hadoop应用现状和发展趋势
6:Hadoop项目及其结构
6.1 Core/Common
为Hadoop及其他子项目提供常用工具,主要包括FileSystem(一组分布式文件系统)和通用的IO组件与接口(序列化、Java RPC和持久化数据结构)。
FileSystem:是Hadoop中的一个文件系统接口,适用于多种文件系统,如:
Local、HDFS(Hadoop分布式文件系统)、FTP(有Ftp服务器支持的文件系统)、HFTP(在HTTP上提供对HDFS只读访问的文件系统,用户多个Hadoop集群并行复制)、S3(由Amazon S3)支持的文件系统。
RPC(RemoteProcedure Call Protocol)——远程过程调用协议:它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
序列化:将对象转化为字节流的方法,或者用字节流描述对象的方法,反序列化是将字节流转化为对象的方法,目的是进程间通信和数据持久化存储。
持久化数据结构:文本文件、SequenceFile(二进制文件,可存储对象blob)、MapFile(有顺序和索引的SequenceFile )
6.2 Avro:独立于编程语言的数据序列化系统,用于非Java客户端对Hadoop调用(C、C++、Python和Ruby等) 。
6.3 MapReduce:一种编程模型,用与大规模数据集(大于1TB)的并行计算
6.4 HDFS:分布式文件系统,用于大规模数据分布式存储。
6.5 Chukwa:开源的数据搜集系统,用于监控和分析大型分布式系统
6.6 Hive:SQL语言编译成MapReduce程序
6.7 HBase:分布式、面向列的开源数据库
6.8 Pig:Pig Latin语言编译成MapReduce程序
6.9 ZooKeeper: 分布式协调服务,提供分布式锁之类的基本服务用于构建分布式应用。
0 0
- Hadoop小结连载:Hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- hadoop概述
- hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- hadoop概述
- Hadoop概述
- hadoop---概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop概述
- Hadoop小结
- hadoop 小结
- 企业项目开发中可遵循的时间管理守则-华为时间管理
- java实现二叉树的先序、中序、后序遍历
- FU-A拆包方式小议
- winn7自带的IIS实现FTP服务器的架设
- Linux系统调用过程学习笔记
- Hadoop小结连载:Hadoop概述
- php 多个input上传文件或图片
- 学习方法(1)
- Android中的常用控件及其基本用法
- 【转载】大数据:“人工特征工程+线性模型”的尽头
- Select标签下拉列表二级联动级联
- SQL中获取子节点或父节点
- 转载:这三个问题正在成为打车软件的致命伤
- 模式匹配——从BF算法到KMP算法(附完整源码)