hadoop集群搭建

来源：互联网发布：口腔正畸知乎编辑：程序博客网时间：2024/06/04 18:43

集群搭建

环境信息

主机名 IP 安装软件 DEVSRV3-SIT.localdomain 20.4.16.19 ResourceManager,DataNode,NodeManager,JournalNode,QuorumPeerMain DEVSRV1.localdomain 20.4.16.9 NameNode,DFSZKFailoverController(zkfc),DataNode,NodeManager,JournalNode,QuorumPeerMain DEVSRV2.localdomain 20.4.16.10 ResourceManager,NameNode,DFSZKFailoverController(zkfc),DataNode,NodeManager,JournalNode,QuorumPeerMain

2. 配置hadoop集群
1. 配置bash_profile.(各个环境不同，但是主要配置的相同，都是配置JAVA_HOME和HADOOP_HOME)
JAVA_HOME=/home/hadoop/jdk1.8/jdk1.8.0_60;export JAVA_HOME HADOOP_HOME=/home/hadoop/hadoop-2.7.1;export HADOOP_HOME PATH=$JAVA_HOME/bin:/usr/bin:/usr/sbin/:/sbin:/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH;export PATH
配置完成后，使用java -version检查一下.
java version "1.8.0_60" Java(TM) SE Runtime Environment (build 1.8.0_60-b27) Java HotSpot(TM) 64-Bit Server VM (build 25.60-b23, mixed mode)
2. 配置hadoop-env.sh
export JAVA_HOME=/home/hadoop/jdk1.8/jdk1.8.0_60
3. 修改core-site.xml
<configuration>  <property> <name>fs.defaultFS</name> <value>hdfs://ns1</value> </property>  <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop-2.7.1/tmp</value> </property>  <property> <name>ha.zookeeper.quorum</name> <value>20.4.16.19:2181,20.4.16.9:2181,20.4.16.10:2181</value> </property> </configuration>
4. 修改hdfs-site.xml
<configuration>  <property> <name>dfs.nameservices</name> <value>ns1</value> </property>  <property> <name>dfs.ha.namenodes.ns1</name> <value>nn1,nn2</value> </property>  <property> <name>dfs.namenode.rpc-address.ns1.nn1</name> <value>20.4.16.9:9000</value> </property>  <property> <name>dfs.namenode.http-address.ns1.nn1</name> <value>20.4.16.9:50070</value> </property>  <property> <name>dfs.namenode.rpc-address.ns1.nn2</name> <value>20.4.16.10:9000</value> </property>  <property> <name>dfs.namenode.http-address.ns1.nn2</name> <value>20.4.16.10:50070</value> </property>  <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://20.4.16.19:8485;20.4.16.9:8485;20.4.16.10:8485/ns1</value> </property>  <property> <name>dfs.journalnode.edits.dir</name> <value>/home/hadoop/hadoop-2.7.1/journal</value> </property>  <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property>  <property> <name>dfs.client.failover.proxy.provider.ns1</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property>  <property> <name>dfs.ha.fencing.methods</name> <value> sshfence shell(/bin/true) </value> </property>  <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/hadoop/.ssh/id_rsa</value> </property>  <property> <name>dfs.ha.fencing.ssh.connect-timeout</name> <value>30000</value> </property> </configuration>
5. 修改mapred-site.xml
<configuration>  <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
6. 修改yarn-site.xml
<configuration>  <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property>  <property> <name>yarn.resourcemanager.cluster-id</name> <value>yrc</value> </property>  <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property>  <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>20.4.16.19</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>20.4.16.10</value> </property>  <property> <name>yarn.resourcemanager.zk-address</name> <value>20.4.16.19:2181,20.4.16.9:2181,20.4.16.10:2181</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
7. 修改slaves(slaves是指定子节点的位置。依赖于本机启动的服务，比如20.4.16.19启动resourceManager，那么子节点应该是NodeManager启动的服务器)
20.4.16.19 20.4.16.9 20.4.16.10
8. 配置免密码登录
3. 启动集群（严格按照顺序启动）
1. 启动zookeeper集群
在三台服务器上分别启动.
cd $Zookeeper_home/bin ./zkServer.sh start #查看启动状态 ./zkServer.sh status
2. 启动journalnode(三台服务器都有)
hadoop-daemon.sh start journalnode #使用jps检验，应该多一个journalnode就对了
3. 格式化HDFS(需要运行namenode的服务器)
#格式化第一个namenode hdfs namenode -format #格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,将此目录拷贝到另一台namenode上 scp -r $HADOOP_HOME/hadoop-2.7.1/tmp hadoop@20.4.16.10:~/hadoop-2.7.1/
4. 格式化ZK(我们这是是9和10,在第一台服务器上格式化即可)
hdfs zkfc -formatZK
5. 启动HDFS(我们在9上启动,这里启动报错了，所以暂时就只有一个namenode了.因为配置文件中配置的目录不一样，9和10的目录不一样，所以导致还是以9的目录去启动，就自然会报错找不到文件，这里暂时忽略)
start-dfs.sh
6. 启动YARN
start-yarn.sh #这里也报错了，因为至少要两个mr才可以

完成配置.

Namenode的端口是:50070。可以通过浏览器去访问对应机器的IP加端口，比如http://20.4.16.9:50070来观察现状.
运行一下wordcount程序，观察是否可以正常执行.(上传文件只能在namenode运行的节点上，如同hadoop执行只能在mapreduce运行的节点上一样)

总结:
初次搭建hadoop集群，很多东西还是模糊不清的，只能算简单的了解了下。

0 0