HDFS与MapReduce学习笔记
来源:互联网 发布:索尼电视推荐 知乎 编辑:程序博客网 时间:2024/06/06 06:53
HDFS的文件被分成块进行存储
HDFS块的默认大小是64M 块是文件存储处理的逻辑单元
HDFS中有两类节点:namenode和datanode
namenode:
namenode是管理节点,存放文件元数据。
文件与数据块的映射表
数据块与数据节点的映射表
datanode:
datanode是HDFS的工作节点,存放数据块。
每个数据块3个副本,分布在两个机架内的三个节点
datanode定期向namenode发送心跳消息,汇报自己的状态,帮助namenode了解datanode的实时情况。
二级namenode(secondarynamenode)定期同步元数据映像文件和修改日志,namenode发生故障时,二级namenode暂时接替namenode的工作。
HDFS读文件:客户端(文件读取请求)->namenode(返回元数据)->读取blocks
HDFS写文件:客户端(将文件拆分成块)->namenode(返回可用的datanode)->写入blocks->流水线复制->更新元数据
HDFS的特点:
1.数据冗余,硬件容错;
2.流式的数据访问(写一次读多次);
3.适合存储大文件(大量的小文件的话namenode的压力会非常大)。
MapReduce原理:分而治之,一个大任务分成多个小任务(map),并行执行后,合并结果(reduce)。
基本概念:Job(作业)&Task(任务)
JobTracker:
作业调度
分配任务、监控任务执行进度
监控TaskTracker的状态
TaskTracker:
执行任务
汇报任务状态
MapReduce的容错机制:
重复执行
推测执行(当一个TaskTracker执行很慢的时候,另外开一个TaskTracker执行相同的任务,谁先执行完就取谁的结果,而另一个则被抛弃。)
- HDFS与MapReduce学习笔记
- hadoop学习笔记 MapReduce + HDFS
- Hadoop-hdfs和mapreduce学习笔记二
- HDFS学习笔记(7)mapreduce
- HDFS学习笔记(8)mapreduce原理
- MapReduce\Hadoop\HDFS上\Hive学习笔记
- HDFS MapReduce笔记
- Hadoop学习:HDFS和MapReduce
- 初步了解HDFS与MapReduce
- 云计算学习笔记005---Hadoop HDFS和MapReduce 架构浅析
- 大数据学习笔记3--HDFS扩展和mapreduce工作过程
- Hadoop入门之HDFS与MapReduce
- Hadoop入门之HDFS与MapReduce
- 【练习作业】HDFS与MapReduce操作
- hadoop学习记(2)--HDFS+yarn+MapReduce关系与原理
- HDFS学习笔记
- HDFS学习笔记
- HDFS 学习笔记
- HDU-2389-Rain on your Parade [二分匹配][Hopcroft-Carp]
- 日志分析
- 逆序的三位数
- position | white-space | Math.random() | Set object | Array.isArray() | Object.keys() |Array.from()
- 十六进制“\u”开头字符串的转码
- HDFS与MapReduce学习笔记
- 解决Mysql错误1040 Too many connections的方法
- codeforce-231B--- Magic, Wizardry and Wonders (思维+构造)
- 一些数据库操作方法
- 【bzoj1012】[JSOI2008]最大数maxnumber
- HDU2485 Destroying the bus stations 迭代加深搜索
- 【yveh的胡策】训练8.24(乱搞)
- 20个常用的正则表达式
- Hibernate.hbm.xml映射关系(一对一、一对多、多对多)