Hadoop集群安装

来源:互联网 发布:淘宝团购怎么买 编辑:程序博客网 时间:2024/06/01 09:21

单机配置:http://blog.csdn.net/zengmingen/article/details/50896094


步骤:

1、每个节点设置时间一致,设置开机自动校验时间。

2、每个节点修改主机名。

3、每个节点配置hosts。

4、每个节点关闭防火墙。

5、开启ssh免密登录。

6、主节点上传JDK,HADOOP安装包。

7、主节点解压JDK,HADOOP 安装包。

8、主节点环境变量配置JDK。

9、主节点环境变量配置Hadoop。

10、主节点配置Hadoop配置文件。

11、删除JDK,hadoop安装目录下无用的帮助文档。

12、scp JDK,hadoop的安装目录到其他节点。

13、scp 主节点环境变量到其他节点。

14、source 各个节点的环境变量。

15、主节点格式化 NameNode

16、启动hdfs。

17、浏览器登录验证。


------------------------------------------------

环境:

1、5台centos6.x 64位机子

2、jdk1.8 64位

3、hadoop 2.x 64位


设置时间

每台机子的时间必须一样,如果相差大会出问题。

设置方法见博文:每台机子都要设置

http://blog.csdn.net/zengmingen/article/details/52913486

http://blog.csdn.net/zengmingen/article/details/53005092


修改主机名

在每台机器都要改

vi /etc/sysconfig/network

hostnamenode1让修改生效,无需重启。

---PS----

修改了/etc/sysconfig/network必须重启才生效。

hostnamenode1只对当前状态有效,一旦重新启动虚拟机,主机名未变。

我的5台centos的主机名分别是node1,node2,node3,node4,node5


配置hosts

每台机器都要配置,先配置一台,其他节点复制黏贴。

命令:vi /etc/hosts

----------------

我的hosts配置如下:

192.168.255.135 node1
192.168.255.136 node2
192.168.255.138 node3
192.168.255.139 node4
192.168.255.140 node5


关闭防火墙

因为是公司内部的机子,都是内部通信,所以每台机子的防火墙关闭。

命令:service iptables stop

命令:chkconfig iptables off


ssh免密登录

方法原理见博文:http://blog.csdn.net/zengmingen/article/details/50909247


主节点上传JDK,HADOOP安装包

上传到主节点。我的主节点是node1.

可通过flashfxp等软件上传,具体操作略。


主节点解压JDK,HADOOP安装包

命令:tar -zxvf hadoop的压缩包 -C /application

tar -zxvf JDK的压缩包 -C /application

我把软件安装到根目录的application文件夹下


主节点环境变量配置JDK和Hadoop

命令:vi /etc/profile

安装目录不同,配置内容不同,我的配置如下:
export JAVA_HOME=/application/jdk1.8.0_73
export HADOOP_HOME=/application/hadoop-2.7.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin/:$HADOOP_HOME/sbin


主节点配置Hadoop配置文件

本文只启动hdfs所以只需要配置:

1、hadoop-env.sh 

2、core-site.xml

3、hdfs-site.xml

4、slaves

5、masters


1、hadoop-env.sh 

配置JAVA_HOME的路径。配置绝对路径。

大概在26~27行。



2、core-site.xml

1、配置 fs(即NameNode)的访问路径。

2、配置NameNode磁盘文件metadata的存放路径。

<configuration><property>    <name>fs.defaultFS</name>    <value>hdfs://node1:9000</value></property><property>    <name>hadoop.tmp.dir</name>    <value>/opt/hadoop-2.5(根据自己的路径填写)</value></property></configuration>

3、hdfs-site.xml

配置SecondaryNameNode的访问路径,分http和https两种。

<configuration><property> <name>dfs.namenode.secondary.http-address</name><value>node2(配置自己用于snn的机子):50090</value></property><property> <name>dfs.namenode.secondary.https-address</name><value>node2:50091</value></property></configuration>

4、slaves

配置DataNode节点的机子

命令:vi slaves

node3
node4
node5

----------start-all.sh要启动集群时要读取集群的机子列表,所以需要一个配置文件,与hadoop没有任何关系。


5、masters

在masters文件里所列出的所有结点上启动secondary namenode。

配置secondary namenode节点的机子

命令:vi masters

node2


删除JDK,hadoop安装目录下无用的帮助文档

步骤略。


scp JDK,hadoop的安装目录到其他节点

命令:

scp -rp /application node2:/ 

scp -rp /application node3:/ 

scp -rp /application node4:/ 

scp -rp /application node5:/ 

scp命令使用:http://blog.csdn.net/zengmingen/article/details/52274846?locationNum=1&fps=1#t1


scp 主节点环境变量到其他节点

命令:

scp /etc/profile node2:/etc/

scp /etc/profile node3:/etc/

scp /etc/profile node4:/etc/

scp /etc/profile node5:/etc/


source 各个节点的环境变量

每个节点都执行:source /etc/profile

profile 文件的详见:http://blog.csdn.net/zengmingen/article/details/53004709?locationNum=1&fps=1


主节点格式化 NameNode

主节点执行命令:hdfs namenode -format

执行成功会提示:successfully formatted



启动hdfs

主节点输入命令:start-dfs.sh



浏览器登录验证

浏览器输入:主节点地址:50070







0 0