ubuntu安装hadoop集群

来源：互联网发布：linux服务器时间同步编辑：程序博客网时间：2024/04/28 12:22

一.上传hadoop的压缩包，或者下载，放在指定的文件夹，我放在 /usr/local/hadoop/ 中

二.上传完成后解压缩压缩包

执行命令 tar -xzvf hadoop-0.20.2.tar.gz

如果是root运行的，还需降hadoop的执行者，为你要搭建集群环境的用户和组例如：降为hadoop用户

chown -R hadoop:hadoop hadoop-0.20.2

三.配置hadoop环境变量

1.（JAVA_HOME的环境变量已经配置）

在 hadoop-0.20.2/conf/hadoop-env.sh 中编辑JAVA_HOME

2.HADOOP_HOME的设置，通过修改 /etc/profile 文件，可以参照jdk环境变量

执行 source /etc/profile 是配置生效

3.hadoop系统日志文件

默认的日志文件在HADOOP_HOME/logs 目录下，现在指点在另一个文件中

在 hadoop-env.sh 中添加 export HADOOP_LOG_DIR=/var/log/hadoop （注意用户hadoop的权限）

注：运行hadoop version 如果出现permission denied，是权限不够，可以对出现的文件执行 chmod +x 命令

四.Linux下Hadoop伪分布模式(Hadoop可以在单节点上以所谓的伪分布式模式运行)

（1）编辑/hadoop-0.20.2/conf/core-site.xml (可以拷贝/hadoop-0.20.2/src/core/core-default.xml到conf文件中，然后改名为core-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3.

4. <configuration>

5. <property>

6. <name>fs.default.name</name>

7. <value>hdfs://localhost:9000</value>

8. </property>

9. </configuration>

（2）编辑 /hadoop-0.20.2/conf/hdfs-site.xml (可以拷贝/hadoop-0.20.2/src/hdfs/hdfs-default.xml到conf文件中，然后改名为hdfs-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3.

4. <configuration>

5. <property>

6. <name>dfs.replication</name>

7. <value>1</value>

8. </property>

9. </configuration>

（3）编辑 /hadoop-0.20.2/conf/mapred-site.xml(可以拷贝/hadoop-0.20.2/src/mapred/mapred-default.xml到conf文件中，然后改名为mapred-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3.

4. <configuration>

5. <property>

6. <name>mapred.job.tracker</name>

7. <value>localhost:9001</value>

8. </property>

9. </configuration>

五.Hadoop集群搭建(我的是用的是三个节点)

集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker，这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。

这些机器是 slaves。

三台机器时，可将NameNode和JobTracker指定为同一台机器，

1.配置每台机器的/etc/hosts保证各台机器之间通过机器名可以互访

同时配置每台机器的 masters和slaves两个文件，填写机器名

2.配置core-site.xml文件

（在这之前首先对hadoop format 进入hadoop执行 bin/hadoop namenode -format，format成功会有，tmp文件下生成新的一个文件）hadoop存储数据块的位置目录

<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-root/dfs/tmp</value>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>

3.配置hdfs-site.xml文件

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<property>
<name>dfs.name.dir</name>
<value>/tmp/hadoop-root/dfs/name</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>/tmp/hadoop-root/dfs/data</value>
</property>

4.配置mapred-site.xml文件

<property>
<name>mapred.job.tracker</name>
<value>hdfs://master:9001</value>
</property>

5.拷贝master的配置文件到salves机器的配置中，在tmp中建立同样的文件夹，对每个salves进行format

6.启动执行start-all.sh

7.停止执行 stop-all.sh

8.再启动时

六.完成这些后查看各个节点的进程

master

salves1

salves2

七,查看集群状态

初学者，初次配置不知是否正确，欢迎交流！