hadoop跨域集群构建实验
来源:互联网 发布:php curl culopt 编辑:程序博客网 时间:2024/06/05 12:43
使用5台机器分别位于两个不同的域:
域A:namenode.areaA 域B:datanode03.areaB
datanode01.areaA datanode04.areaB
datanode02.areaA
域A和域B可以是随意的两个域,但是要求有上级DNS服务可以使两个域网络互通,接下来讲各个节点的配置:
namenode.areaA 作为namenode 和 jobtracker,
core-site.xml中使用完整地址配置即 hdfs://namenode.areaA:9000,因为jobtracker会使用该配置来让tasktracker连接HDFS文件系统,如果只配置机器名会导致不同域的tasktracker无法连接到HDFS文件系统而无法正常工作;
mapred-site.xml中可以配置机器名或者完整地址 namenode:9001 或者 namenode.areaA:9001 都可以,namenode中的该配置文件只用于ssh到目标机器启动jobtracker进程,但是如果jobtracker使用独立的服务器而且在不同域的话,该配置文件需要配置完整的可通讯的地址;
masters 该文件是配置备份namenode的,一般情况下配置本机就行了,localhost namenode namenode.areaA 都不会有问题,但是同样的,如果是位于不同的第二namenode主节点,那么就需要配置完整的可通讯的地址;
slaves 该文件是配置所有的datanodes的,根据预设的环境,我们可以配置成:
datanode01
datanode02
datanode03.areaB
datanode04.areaB
在相同域中的可以只配置机器名,不同域中的就需要配置完整的地址,不过全部配置完整的地址当然也是不会错的,不过配置机器名可以避免上级DNS故障所造成的整体瘫痪。而且我在实验过程中明显感觉到使用公网域名比使用机器名通讯速度要慢很多,这个可能和网络环境也有关系;
namenode的配置这样就可以了。
域A中的两个datanode的配置直接拷贝namenode的core-site.xml和mapred-site.xml就可以了,并且core-site.xml中的配置可以直接使用机器名namenode而不必使用namenode.areaA,因为在datanode中该配置只用于datanode进程连接namenode,mapred-site.xml是用于tasktracker进程连接jobtracker的,所以还是一样,只要保证能与目标机器正常通讯就行;
域B中的的两个datanode就必须要求在core-site.xml和mapred-site.xml中配置完整的地址namenode.areaA,不然datanode进程会无法连接namenode,而tasktracker也会连接不到jobtracker,然后这里还有一个需要注意的就是,tasktracker是需要连接HDFS文件系统的,而文件系统是jobtracker通过本机的core-site.xml的配置来确定的,所以jobtracker中core-site.xml的配置必须是要保证所有的节点都能够正常访问到的地址,否则tasktracker就无法访问HDFS文件系统,前面讲namenode配置的时候已经提到过这个问题,这里继续强调下。
顺带最后讲一下hadoop集群中的各种角色 Roles
namenode hadoop集群主节点,控制所有角色和进程的管理
secondarynamenode 主节点的备份节点,当主节点失效时会接管所有资源
jobtracker job主节点,用于创建job并将job分割成task,然后分发给tasktracker,最后reduce,也就是hadoop的核心 map/reduce
datanode HDFS文件系统的数据存储节点
tasktracker 任务节点,用于接收处理jobtracker分配的task,然后返回结果
以上就是hadoop集群中所有的角色了,一般的小型配置就是namenode jobtracker secondarynamenode使用同一机器,然后剩下的所有机器每一台都同时作为datanode和tasktracker,datanode和tasktracker采用一一对应的方式有助于提高hadoop的运算效率,因为可以节省大量数据传输的时间
- hadoop跨域集群构建实验
- Hadoop:构建Hadoop集群
- 构建hadoop集群
- Hadoop集群安装配置实验
- 《权威指南》笔记九 构建Hadoop集群
- Spark API(1) 构建hadoop 集群
- 002如何构建hadoop集群环境?
- Hadoop多节点集群的构建
- 生产环境下hadoop集群配置实验
- Hadoop开发之一:集群实验环境搭建
- 论文实验遇到的问题(hadoop集群+redis集群)
- 笔记:Hadoop权威指南 第9章 构建Hadoop集群
- 构建Hadoop HA 集群 hadoop 2.7.2 版本
- [hadoop]成功搭建Hadoop集群后简单实验
- 构建Spark分布式集群第一步:搭建Hadoop伪分布式环境
- 在Ubuntu11.10下构建hadoop实验环境笔记
- Hadoop集群安装&Hbase实验环境搭建【1】
- Hadoop全分布式集群模式的搭建实验
- ASIO 之 剖 析--(1) 初识 ASIO
- 面包屑导航
- 书摘---创业36条军规1:创业是怎么回事
- 批量删除GridView(DataGrid)选中项
- u-boot移植流程的C语言描述
- hadoop跨域集群构建实验
- 使cxgrid中某列下拉列表自动下拉
- UBL descriptor ti dm365 引导分析 RBL,UBLU-BOOT
- LINQ 多条件查询 where 条件组建
- PLSQL Developer设置及快捷键设置
- openAL跨平台开发,解码方式 wav & ogg
- ABAP运算符
- 纯静态页面实现301跳转
- silverlight使用DataGrid实现类似Treelistview效果