搭建hadoop2.6.0 HA及YARN HA

来源：互联网发布：建信养老飞月宝知乎编辑：程序博客网时间：2024/04/20 06:48

以前用hadoop2.2.0只搭建了hadoop的高可用，但在hadoop2.2.0中始终没有完成YARN HA的搭建，直接下载了hadoop最新稳定版本2.6.0完成了YARN HA及HADOOP HA的搭建流程，没有仔细看hadoop的官方文档，貌似hadoop2.2.0不支持YARN HA，如果说错了谢谢指正呀，下面总结一下我的搭建流程：

首先完成虚拟机的搭建：

机器名IP安装软件运行进程namenode1192.168.3.161hadoopNameNode、DFSZKFailoverController、ResourceManagernamenode2192.168.3.162hadoopNameNode、DFSZKFailoverController、ResourceManagerdatanode1192.168.3.163hadoop，zookeeperDataNode、QuorumPeerMain、JournalNode、NodeManagerdatanode2192.168.3.164hadoop，zookeeperDataNode、QuorumPeerMain、JournalNode、NodeManagerdatanode3192.168.3.165hadoopDataNode、NodeManagerdatanode4192.168.3.166hadoop，zookeeperDataNode、QuorumPeerMain、JournalNode、NodeManager

说明：

在hadoop2.X中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。

hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode

虚拟机安装linux系统，我这里用的是centos6.4

使用root用户修改/etc/hosts文件，如下：

192.168.3.161 namenode1
192.168.3.162 namenode2
192.168.3.163 datanode1
192.168.3.164 datanode2
192.168.3.165 datanode3
192.168.3.166 datanode4

复制代码

安装jdk1.7和hadoop并配置环境变量，可以配置全局的（修改/etc/profile）也可以配置当前用户的(修改~/.bashrc文件)，这里我配置是全局的环境变量

安装jdk的过程直接解压tar xzvf jdk.tar，这里不做说明了，列出/etc/profile文件中末尾添加的内容如下：

export JAVA_HOME=/usr/java/jdk1.7.0_67
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-2.6.0

复制代码

使用root用户关闭防火墙和selinux

service iptables stop

复制代码

centos7好像把防火墙修改成firewalld，可以试试service firewalld stop

chkconfig iptables off

复制代码

修改/etc/selinux/config文件中设置SELINUX=disabled ，然后重启服务器

创建hadoop用户组及hadoop用户并完成.ssh免密码登录

在每台虚拟机中通过hadoop用户执行ssh-keygen -t rsa会在~/.ssh/目录中生成两个文件id_rsa和id_rsa.pub，

如果想从namenode1免密码登录到namenode2中要在namenode1中执行ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@namenode2

（注意：些命令中的-i一定加上否则之后的一些操作会出现ssh_exchange_identification: Connection closed by remote host这样的错误），

这个命令完成后会在namenode2的~/.ssh/目录下生成文件authorized_keys，此时可以从namenode1直接ssh到namenode2了，建议在每台机器包括namenode2本身都执行ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@namenode2然后把生成的authorized_keys复制到集群中每个机器上实现任何机器之间都可以免密码登录。

完成安装zookeeper3.4.5集群：主要作用是用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态

解压zookeeper包在zookeeper3.4.5/conf/目录执行mv zoo_sample.cfg zoo.cfg，之后修改zoo.cfg文件，如下：

修改dataDir=/hadoop/zookeeper-3.4.5/tmp（zookeeper修改源数据的地方，包括myid文件）

文件最后添加

server.1=datanode1:2888:3888
server.2=datanode2:2888:3888
server.3=datanode4:2888:3888

复制代码

保存退出
然后分别在datanode1,2,4节点中创建一个tmp文件夹，mkdir /hadoop/zookeeper-3.4.5/tmp ，再创建一个空文件 touch /hadoop/zookeeper-3.4.5/tmp/myid 最后向该文件写入ID，datanode1执行echo 1 > /hadoop/zookeeper-3.4.5/tmp/myid，datanode1执行echo 2 > /hadoop/zookeeper-3.4.5/tmp/myid，datanode3执行echo 3 > /hadoop/zookeeper-3.4.5/tmp/myid

安装配置hadoop2.6.0集群：

解压文件后配置HDFS（注意：hadoop2.X之后所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下），需要修改文件如下：

修改文件hadoo-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_67
export HADOOP_LOG_DIR=/data/log/hadoop

复制代码

指定日志存放目录

修改文件core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://gagcluster</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/data/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>dataNode1:2181,dataNode2:2181,dataNode4:2181</value>
</property>
</configuration>

复制代码

修改文件hdfs-site.xml

<configuration>
<property>
<name>dfs.nameservices</name>
<value>gagcluster</value>
</property>
<property>
<name>dfs.ha.namenodes.gagcluster</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.gagcluster.nn1</name>
<value>namenode1:9000</value>
</property>
<property>
<name>dfs.namenode.rpc-address.gagcluster.nn2</name>
<value>namenode2:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.gagcluster.nn1</name>
<value>namenode1:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.gagcluster.nn2</name>
<value>namenode2:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://dataNode1:8485;datanode2:8485;datanode4:8485/gagcluster</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.gagcluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/data/hadoop/tmp/journal</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/data/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/data/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.journalnode.http-address</name>
<value>0.0.0.0:8480</value>
</property>
<property>
<name>dfs.journalnode.rpc-address</name>
<value>0.0.0.0:8485</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>dataNode1:2181,dataNode2:2181,dataNode4:2181</value>
</property>
</configuration>

复制代码

修改文件yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.connect.retry-interval.ms</name>
<value>2000</value>
</property>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>dataNode1:2181,dataNode2:2181,dataNode4:2181</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>namenode1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>namenode2</value>
</property>
<property>
<name>yarn.resourcemanager.ha.id</name>
<value>rm1</value>
<description>If we want to launch more than one RM in single node, we need this configuration</description>
</property>
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.zk-state-store.address</name>
<value>datanode1:2181,datanode2:2181,datanode4:2181</value>
</property>
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>datanode1:2181,datanode2:2181,datanode4:2181</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>gagcluster-yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>
<value>5000</value>
</property>
<property>
<name>yarn.resourcemanager.address.rm1</name>
<value>namenode1:8132</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm1</name>
<value>namenode1:8130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1</name>
<value>namenode1:8188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm1</name>
<value>namenode1:8131</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm1</name>
<value>namenode1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.ha.admin.address.rm1</name>
<value>namenode1:23142</value>
</property>
<property>
<name>yarn.resourcemanager.address.rm2</name>
<value>namenode2:8132</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address.rm2</name>
<value>namenode2:8130</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2</name>
<value>namenode2:8188</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address.rm2</name>
<value>namenode2:8131</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address.rm2</name>
<value>namenode2:8033</value>
</property>
<property>
<name>yarn.resourcemanager.ha.admin.address.rm2</name>
<value>namenode2:23142</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value>/data/hadoop/yarn/local</value>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value>/data/log/hadoop</value>
</property>
<property>
<name>mapreduce.shuffle.port</name>
<value>23080</value>
</property>
<property>
<name>yarn.client.failover-proxy-provider</name>
<value>org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider</value>
</property>
<property>
<name>yarn.resourcemanager.ha.automatic-failover.zk-base-path</name>
<value>/yarn-leader-election</value>
<description>Optional setting. The default value is /yarn-leader-election</description>
</property>
</configuration>

复制代码

修改文件mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>0.0.0.0:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>0.0.0.0:19888</value>
</property>
</configuration>

复制代码

修改文件slaves

atanode1
datanode2
datanode3
datanode4

复制代码

修改文件yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_67
export YARN_LOG_DIR=/data/log/hadoop指定日志存放目录

复制代码

把配置好的文件远程scp到集群其它节点相应目录中，注意修改YARN高可用的yarn-site.xml文件中的yarn.resourcemanager.ha.id项

启动zookeeper集群（分别在datanode1、datanode2、datanode4上启动zk）
进入到 zookeeper-3.4.5/bin/

./zkServer.sh start

复制代码

查看状态：

./zkServer.sh status

复制代码

（一个leader，两个follower）

启动journalnode（在namenode1上启动所有journalnode）
进入到hadoop-2.6.0

sbin/hadoop-daemons.sh start journalnode

复制代码

　　　　或者单独进入到datanode1,datanode2,datanode4执行

　　　　sbin/hadoop-daemon.sh start journalnode

复制代码

(运行jps命令检验，多了JournalNode进程)

格式化HDFS
在namenode1上执行命令:

hadoop namenode -format

复制代码

格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件，之后通过sbin/hadoop-daemon.sh start namenode启动namenode进程在namenode2上执行hdfs namenode -bootstrapStandby完成主备节点同步信息

格式化ZK(在namenode1上执行即可)

hdfs zkfc -formatZK

复制代码

启动HDFS(在namenode1上执行)

sbin/start-dfs.sh

复制代码

启动YARN(在namenode1和namenode2上执行)

sbin/start-yarn.sh

复制代码

　　　　注意在namenode2上执行此命令时会提示NodeManager已存在等信息不用管这些，主要是启动namenode2上的resourceManager完成与namenode1的互备作用，目前没有找到单独启动resourceManager的方法

启动完成之后可以在浏览器中输入http://192.168.3.161:50070和http://192.168.3.162:50070查看namenode分别为Active和Standby

在namenode1上执行${HADOOP_HOME}/bin/yarn rmadmin -getServiceState rm1查看rm1和rm2分别为active和standby状态，也可以通过浏览器访问http://192.168.3.161:8188查看状态

转自：

http://www.aboutyun.com/forum.php?mod=viewthread&tid=10572

亲测，可用。

0 0