hadoop笔记一
来源:互联网 发布:java程序的执行过程 编辑:程序博客网 时间:2024/06/04 18:36
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。
是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员
Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System[3](HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成
hadoop两部分组成
1、分布式文件系统( HDFS Hadoop distributed FileSystem)
2、MapReduce
hadoop两大类角色:
1、master 主服务器
2、salve 子服务器
1、分布式文件系统
1、NameNode 作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问操作(CRUD)
统计数据需要多大的空间,多少个DataNode块,进行存储数据
2、DataNode 管理存储的数据
数据真正储存的节点内容、或者物理地址 存储(blockID-块地址,data-数据)
hadoop启动时会将dataNode节点的数据主动上传到NameNode空间中,让所有的数据都让nameNode维护起来,DataNode与NameNode保持心跳(实时通信)实现数据共享、
2、MapReduce 分布式计算和任务处理 JobTrackers 和 TaskTrackers 组成
1、Map 接受数据并且将数据抓换成key \ value形式保存
2、Reduce 对Map进行逻辑处理 排序 、 计算、处理的逻辑处理
同时又两个集中处理的子任务
1、JobTracker、分解任务的执行
2、TaskTracker、任务的执行(分解出来的任务执行(存储在硬盘或DataNode))
HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表:(one,1) (small,1) (step,1) (for,1) (man,1)MapReduce 流程的概念流
(one,1) (giant,1) (leap,1) (for,1) (mankind,1)如果对这个键/值对列表应用 Reduce 函数,将得到以下一组键/值对:(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)
MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果
0 0
- Hadoop 笔记(一)
- Hadoop学习笔记一
- hadoop学习笔记(一)
- Hadoop学习笔记一
- hadoop笔记一
- Hadoop学习笔记一
- Hadoop笔记(一)
- Hadoop 学习笔记一
- Hadoop学习笔记一
- hadoop入门笔记[一]
- Hadoop笔记(一)
- hadoop学习笔记(一)
- Hadoop学习笔记(一)
- hadoop 学习笔记 一
- hadoop学习笔记<一>----hadoop简介
- hadoop 学习笔记(一)hadoop 数据流
- 《Hadoop学习笔记系列》一.Hadoop基础
- Hadoop学习笔记(一)初识Hadoop
- java学习笔记4>顺序线性表的实现及其内存分配
- Java 网络编程nio
- 留一点梦想给自己
- Codeforces Round #133 (Div. 2) B. Forming Teams(并查集)
- 读jQuery之一(对象的组成)
- hadoop笔记一
- 零值比较--BOOL,int,float,指针变量与零值比较的if语句
- uva 11986
- C++ - 判断文件夹(folder)是否存在(exist)
- 08765700
- The Monocycle
- c++ 字面值常量
- 第一天
- Xcode快捷键