学习Hadoop的源码
来源:互联网 发布:数控加工中心编程g代码 编辑:程序博客网 时间:2024/05/04 07:24
近两年在云计算方面折腾,从基础知识、到理论算法,进一步Hadoop的集群搭建、Hbase,Hive,Pig等一系列的研究;
甚至Avro,ZooKeepr,mahout以及Chukwa,都有所涉足;读书破万卷,下笔有如神;
对此用的再多,不如下手一试,而阅读Hadoop的源码结构也是一种修炼内功的不必可少之路;
1:首先再看源码之前,至少要了解Hadoop有哪些东西,至少需要掌握了如下几点
Hadoop提供了什么东东
HDFS,Map-Reduce当然是必不可少的
Hadoop的集群搭建模式,namenode,datanode,jobtracker,tasktracker这些职责都是必不可少的。
以及MR2(YARN)的第二代集群管理架构
还有管理UI
2:获取源码
通过工具SVD从http://svn.apache.org/repos/asf/hadoop获取源码
源码结构至少包括:
assemblies
client
common-project
dist
hdfs-project
mapreduce-project
maven-plugins
minicluster
project
project-dist
tools
yarn-project
接下来进一步对源码学习和分析
3:HDFS部分
核心代码在main中的java,native,webapps[对应的hdfs的管理界面]
org.apache.hadoop.fs包下面只有5个类
BlockStorageLocation extends BlockLocation
Hdfs extends AbstractFileSystem
HdfsBlockLocation extends BlockLocation
HdfsVolumeId implements VolumeId
VolumeId [interface]
org.apache.hadoop.hdfs包还包含如下子包
client
net
protocol
protocolProtocolBuffers
qjournal
security
server
tools
util
web
还还有一系列的类
打造一个专门的File System确实需要关注更多的东东
- 学习Hadoop的源码
- Hadoop源码学习_Host2NodesMap
- Hadoop源码学习_DatanodeID
- Hadoop源码学习:RPC
- Hadoop源码学习
- hadoop学习之查看hadoop源码
- hadoop的源码阅读,ipc包学习--nio
- 【Hadoop学习笔记】编译源码
- hadoop学习(五)------源码编译
- Hadoop源码学习(一)
- Hadoop源码学习积累2
- hadoop源码学习积累1
- Hadoop源码的疑问
- Hadoop源码学习-编译源码
- 【hadoop】Hadoop学习笔记(八):如何使用Maven构建《hadoop权威指南3》随书的源码包
- Hadoop学习笔记-搭建源码学习环境
- Hadoop源码分析的思路
- hadoop 全局排序的 源码
- 托”的夹弹法
- 新来第一天,报个到
- 交换两个数,不用临时变量
- ssh整合web.xml过滤器和监听器的配置
- Oracle—归档模式
- 学习Hadoop的源码
- typedef int* (*a[5])(int n,char* s);
- iOS extracts: Handling Terminations
- Spring中监听器的详解
- Web开发之过滤器高级案例、监听器、观察者设计模式
- The VPN client agent was unable to create the interprocess communication depot.
- python的时间处理模块 date time datetime
- CLR内存管理机制(读《你必须知道的.net》记录笔记)
- SDUT 2482 二叉排序树