Hadoop 安装指南

来源：互联网发布：淘宝新店流量扶持编辑：程序博客网时间：2024/06/06 02:55

Hadoop 安装指南

1. 安装jdk

将jdk解压到这个路径下 /usr/share/jdk

配置java 的环境变量

exportJAVA_HOME=/usr/share/jdk1.8.0_144

export PATH=$JAVA_HOME/bin:$PATH

exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

然后 source /etc/profile

最后 java –version 验证是否配置成功。

2. 创建hadoop账号

现在一共有四个节点：

192.168.100.107 namenode

192.168.100.108 datanode1

192.168.100.109 datanode2

192.168.100.110 datanode3

为hadoop集群专门设置一个用户组及用户，

groupadd hadoop

useradd hadoop

Passwd hadoop

3. 配置ssh免密码连入

ssh-keygen -t rsa

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@192.168.100.107

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@192.168.100.108

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@192.168.100.109

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@192.168.100.110

验证：

ssh 192.168.100.107

4. 配置hadoop

外层的启动脚本在sbin目录

内层的被调用脚本在bin目录

Native的so文件都在lib/native目录

配置程序文件都放置在libexec

配置文件都在etc目录，对应以前版本的conf目录

所有的jar包都在share/hadoop目录下面

mkdir -p /opt/hadoop/DATA/hdfs/name

mkdir -p /opt/hadoop/DATA/hdfs/data

若不配置，Hadoop默认将数据存储在tmp文件夹中，重启会清空tmp数据，因此单独配置其数据存储文件夹，具体使用配置在下面XML中。

配置环境变量 /etc/profile

export HADOOP_HOME=/opt/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export HADOOP_MAPARED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export LD_LIBRARY_PATH=${HADOOP_HOME}/lib/native/:$LD_LIBRARY_PATH

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

修改slaves 文件，添加子节点服务名或者ip

/opt/hadoop/hadoop-2.8.1/etc/hadoop/slaves

在hadoop-env.sh中配置java_home

export JAVA_HOME=${JAVA_HOME}

source/opt/hadoop/hadoop-2.8.1/etc/hadoop/hadoop-env.sh

代码开发分为了core，hdfs和map/reduce三部分，配置文件也被分成了三个core-site.xml、hdfs-site.xml、mapred-site.xml。

单独创建tmp文件夹hadoop_tmp给 hadoop.tmp.dir用于跟普通数据隔离。

5. 启动Hadoop

1.格式化namenode

bin/hdfsnamenode –format

2.启动dfs及yarn

start-dfs.sh 在启动前关闭集群中所有机器的防火墙，不然会出现datanode开后又自动关闭(暂未发现) service iptables stop

阅读全文

0 0