hadoop2.7.3分布式集群搭建

来源：互联网发布：个性域名格式不正确编辑：程序博客网时间：2024/05/22 12:11

本文介绍搭建hadoop分布式集群环境，机器：master(centos7.2 64 1台)，slave1（centos7.2 64 1台）

先在master上面配置。

（1）修改hosts文件

vi /etc/hosts

把host原来的内容改成（见文章结尾的说明）：

vi /etc/sysconfig/network

master写入：

NETWORKING=yesHOSTNAME= masterNETWORKING_IPV6=yesIPV6_AUTOCONF=no

slave1写入：

NETWORKING=yesHOSTNAME= slave1NETWORKING_IPV6=yesIPV6_AUTOCONF=no

(2)安装SSH，并让master无密登录服务器和slave1服务器,2台机器的管理员密码最好一样，避免麻烦。

master上：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  chmod 0600 ~/.ssh/authorized_keys

slave1上：

scp root@master:~/.ssh/id_dsa.pub ~/.ssh/master_dsa.pubcat ~/.ssh/master_dsa.pub >> ~/.ssh/authorized_keys

效果就是不会提示输入密码：

master上：

（3）下载hadoop-2.7.3

参考：http://blog.csdn.net/cafebar123/article/details/73500014

（4）配置hadoop-2.7.3，在/usr/hadoop-2.7.3/etc/hadoop 路径下

master上：

core-site.xml:

<configuration>    <property>        <name>fs.defaultFS</name>      <value>hdfs://master:9000</value>    </property></configuration>

hdfs-site.xml:

<configuration>    <property>      <name>dfs.replication</name>        <value>1</value>    </property>    <property>        <name>dfs.namenode.secondary.http-address</name>        <value>master:9001</value>    </property></configuration>

mapred-site.xml:

mv mapred-site.xml.template mapred-site.xml

<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property>    <property>        <name>mapreduce.jobhistory.address</name>        <value>master:10020</value>    </property>    <property>      <name>mapreduce.jobhistory.webapp.address</name>        <value>master:19888</value>    </property></configuration>

yarn-site.xml:

<configuration>    <property>      <name>yarn.nodemanager.aux-services</name>      <value>mapreduce_shuffle</value>    </property>    <property>                                                                    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>      <value>org.apache.hadoop.mapred.ShuffleHandler</value>    </property>    <property>        <name>yarn.resourcemanager.address</name>        <value>master:8032</value>    </property>    <property>        <name>yarn.resourcemanager.scheduler.address</name>        <value>master:8030</value>    </property>    <property>        <name>yarn.resourcemanager.resource-tracker.address</name>        <value>master:8031</value>    </property>    <property>        <name>yarn.resourcemanager.admin.address</name>        <value>master:8033</value>    </property>    <property>        <name>yarn.resourcemanager.webapp.address</name>        <value>master:8088</value>    </property></configuration>

（5）将hadoop-env.sh、mapred-env.sh、yarn-env.sh这几个文件中的JAVA_HOME改为已安装的JAVA安装路径，在/usr/hadoop-2.7.3/etc/hadoop路径下。

vi hadoop-env.sh

export JAVA_HOME=/alidata/server/java-1.7.0

（6）配置环境变量

vi /etc/profile

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3  export PATH=$PATH:$HADOOP_HOME/bin

（7）配置slave文件，在/usr/hadoop-2.7.3/etc/hadoop路径下。

vi slaves

slave1

（8）把master上配置的hadoop配置拷贝到slave1上面：

例如：scp -r master机上hadoop路径 root@slave1:slave1机上的路径

scp -r /usr/hadoop-2.7.3 root@slave1:/usr

（这一步时间比较长，有1个多小时）

（9）第一次启动，格式化hdfs，在/usr/hadoop-2.7.3路径下：

./bin/hdfs namenode -format

这个格式化的日志也要仔细看一下，如果日志有错误记录，还要检查一下。之前本人有遇到过。

（9）启动。

./sbin/start-all.sh

或者：

./sbin/start-dfs.sh./sbin/start-yarn.sh

master效果：

slave1效果：

(bootstrap跟这个无关)

在浏览器中输入：http://119.29.174.43:8088 （master机），效果：

如此一来，hadoop分布式集群环境就基本可以了。

容易遇到的问题：

（1）运行 ./sbin/start-all.sh 命令，发现master机启动不起来，查看日志，提示：

Problem binding to [master:9000] java.net.BindException: Cannot assign requested address

原因是无法分派ip。网上查了，说是主机和从机要在一个网段内，比如master机ip是119.29.174.43 ，slave1机应该是119.29.174.××，我这个是租用的服务器，照这样，是不行的。然后我在服务器控制台尝试了下“弹性ip”，发现不适用；最后经一位网友的提示，改成这样：

在/etc/hosts 中，

本机内网IP      本机hostname其他服务器外网IP   其他服务器hostname

实测可以，暂时没发现问题。

阅读全文

1 0