Hadoop学习笔记(二)——MapReduce

来源:互联网 发布:龙献文天下数据 编辑:程序博客网 时间:2024/06/06 02:39

学习资料

慕课网——Hadoop大数据平台架构与实践–基础篇

MapReduce原理

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。

MapReduce运行流程

基本概念

  • Job & Task
    一个Job分成多个Task
    • MapTask
    • ReduceTask
  • JobTracker
    • 作业调度
    • 分配任务、监控任务执行进度
    • 监控TskTracker的状态
  • TaskTracker
    • 执行任务
    • 汇报任务状态
      部署时TaskTracker一般和HDFS中的DataNode放一起

这里写图片描述

这里写图片描述

MapReduce的容错机制

处理TaskTracker在执行过程中可能发生的宕机、故障。

  • 重复执行,默认4次仍失败,则放弃
  • 推测执行,如果某一个TaskTracker速度很慢,则另开一个TaskTracker与它执行相同的任务,谁先执行完,使用谁的数据。
0 0
原创粉丝点击