关于hadoop集群你需要知道的知识点

来源:互联网 发布:列强瓜分中国知乎 编辑:程序博客网 时间:2024/05/24 03:28

记录每天在成为大数据工程师路上的成长点滴

  • 什么是job
  • 什么是task
  • 关于NameNode
  • namespace镜像文件(namespace image)和操作日志文件(edit log)文件的作用
  • 关于DataNode
  • NameNode,DataNode,namespace,Edit log之间的关系
  • 关于JobTracker
  • 关于TaskTracker

PS:之前瞎鼓捣在实验室两台主机搭建了伪分布式hadoop集群,今天由于遇到datanode开启却无法显示等小问题搞的很头疼!想想还是要脚踏实地,要了解hadoop运行机制!

关于上述几点问题解释如下:

  • 关于job,task
    在MapReduce中,一个准备提交执行的应用程序称为job,从一个job中划分出来并运行在各个节点的工作单元称为task。

  • 关于NameNode
    首先,NameNode管理文件系统的命名空间(namespace)。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件(namespace image)和编辑日志文件(edit log)。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。
    NameNode结构图

原创粉丝点击