hadoop2.x学习01

来源:互联网 发布:磁卡刷卡器软件 编辑:程序博客网 时间:2024/06/05 08:42

hadoop2.x学习01

最新的发行版本已经是2.7了,我围绕2.5展开学习。

hadoop2.x是在hadoop0.23之后发行的正式版2.2。
本身是来自于lucene和nutch,在ggl的论文MR、GFS、BigTable组合下生成了hadoop,对海量数据进行分析处理。

相比于hadoop1.x,2.x版本新增加了一个资源调度模块yarn,正是2.x版本的最强之处。2.x版本分为4个模块,hadoop common公共模块即1.x的hadoop core核心模块、hadoop hdfs存储模块、hadoop yarn调度模块、hadoop MR数据处理模块。

hadoop hdfs是一个高性能分布式存储系统。大数据量文件按块划分存储到机柜机架集群中。分布式系统具有高度的内聚性和透明性。hdfs系统中分为name node和datanodes两种节点。namenode存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,文件权限),以及文件的块列表和块所在datanode。datanode是集群中的任一计算机,其功能为在本地文件系统存储文件的块数据以及块数据的校验和。通常集群中存在secondary namenode用来监控HDSF状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照,作为灾难备份,在主namenode发生问题时继续管理datanode。

hadoop yarn是一个资源调度管理系统。yarn分为resource manager和node manager两种节点。客户端操作请求进入resourcemanager,在RM中生成applicationmaster数据appms。
appms中包含数据的元信息,以及为请求所分配的资源使用方案。
RM将APPMS的信息分配到Nodemanager中,NM处理RM发来的信息,以及APPMS中的信息,分配任务,生成container来执行任务。

0 0
原创粉丝点击