CentOS下Hadoop伪分布模式安装笔记

来源：互联网发布：怎么关闭软件网络禁用编辑：程序博客网时间：2024/05/27 00:41

CentOS下Hadoop伪分布模式安装笔记

一. 前言

Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式，单机上的分布式并不是真正的伪分布式，而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的，两种配置也很相似，唯一不同的地方是伪分布式是在单机器上配置，数据节点和名字节点均是一个机器。现在很多初学者根本不具备搭建完全分布式集群的硬件环境，大多都是在单机下进行学习和实验。下面将我在安装期间遇到的问题和解决方法记录下来，和网友共勉。本人当时是在Linux Cent OS 6.3下搭建成功Hadoop伪分布式测试环境。

二. 环境搭建

搭建测试环境所需的软件包括：jdk-6u13-linux-i586.bin 、hadoop-1.0.1.tar.gz。测试服务器操作系统Linux Cent OS 6.3。

1、JDK安装及Java环境变量的配置

说明：1.CentOS默认情况下，会安装OpenOffice之类的软件，这些软件需要Java的支持，所以系统默认会安装JDK的环境，若需要特定的Java环境，最好将默认的JDK彻底删除；

2.查看默认的JDK命令：java -version

3.但是如果先删除默认再装新的JDK，则与之相关的软件比如openoffice等也会随之删除，所以，应该先装新的jdk再卸系统默认自带的jdk。

***卸载系统自带原JDK的方法示例：（注意，此操作应该在新jdk安装完毕后再执行）

终端输入，查看gcj的版本号：rpm -qa|grep jdk

得到结果：

jdk-1.7.0_04-fcs.x86_64

java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64

终端输入，卸载：yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64

等待系统自动卸载，最终终端显示 Complete，卸载完成

1.1 JDK安装

root 用户登陆，使用命令mkdir /usr/program新建目录/usr/program ,下载 JDK 安装包jdk-6u13-linux-i586.bin，将其复制到目录/usr/program下，用cd命令进入该目录，执行命令“./ jdk-6u13-linux-i586.bin”，命令运行完毕即安装完成，将在目录下生成文件夹/jdk1.6.0_13，此即为jdk被成功安装到目录：/usr/program/jdk1.6.0_13下。

1.2 java环境变量配置

root 用户登陆，命令行中执行命令“vi /etc/profile”,并加入以下内容，配置环境变量(注意/etc/profile 这个文件很重要，后面 Hadoop 的配置还会用到)。

# set java environment

export JAVA_HOME=/usr/program/jdk1.6.0_13

export JRE_HOME=/usr/program/jdk1.6.0_13/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

在vi编辑器增加以上内容后保存退出，并执行以下命令使配置生效！

#chmod +x /etc/profile ；增加执行权限

#source /etc/profile；使配置生效！

配置完毕后，在命令行中输入：java -version，如出现下列信息说明java环境安装成功。

java version "1.6.0_13"

Java(TM) SE Runtime Environment (build 1.6.0_13-b03)

Java HotSpot(TM) Server VM (build 16.3-b01, mixed mode)

2、SSH无密码验证配置

注：Hadoop 需要使用SSH 协议，namenode 将使用SSH 协议启动 namenode和datanode 进程，伪分布式模式数据节点和名称节点均是本身，所以配置 SSH localhost无密码验证登录就会方便很多。实际上，在H adoop的安装过程中，是否免密码登录是无关紧要的，但是如果不配置免密码登录，每次启动Hadoop都需要输入密码以登录到每台机器的DataNode上，考虑到一般的Hadoop集群动辄拥有数百或上千台机器，因此一般来说都会配置SSH的免密码登录！在此我们选择配置SSH为免密码登录模式！！！

配置为可以免密码登录本机:

首先查看在“当前用户”文件夹下是否存在.ssh 文件夹（注意ssh前面有“.”，这是一个隐藏文件夹）。输入命令查看此文件夹是否存在。一般来说，安装SSH时会自动在当前用户下创建这个隐藏文件夹，如果没有，可以手创建一个。

下面的配置我是在root超级用户下进行的：

[root@centos1 ~]# ls –a

发现.ssh文件夹已经存在。

接下来输入命令（注意下面命令中不是双引号，是两个单引号）：

方法一：用root用户登录，在root目录下执行如下命令：ssh-keygen -t rsa

[root@mycentos ~]# ssh-keygen -t rsa

Generating public/private rsa key pair.

Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 &

Created directory '/root/.ssh'. &创建/root/.ssh目录&

Enter passphrase (empty for no passphrase):

Enter same passphrase again:

Your identification has been saved in /root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

The key fingerprint is:

c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master

通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置：

[root@master .ssh]# cat id_rsa.pub > authorized_keys

配置完毕，可通过ssh 本机IP 测试是否需要密码登录。

方法二、或者按照如下方式配置：

生成签名文件：

[root@centos1 ~]# ssh-keygen -t dsa -P ' ' –f ~/.ssh/id_dsa

解释一下，ssh-keygen代表生成秘钥； -t（注意区分大小写）表示指定生成的秘钥类型；dsa是dsa密钥认证的意思。即秘钥类型；-P用于提供密语；-f指定生成的秘钥文件。(其中~代表当前用户文件夹，如home/wade )，这条命令会在.ssh文件夹下创建id_dsa及id_dsa.pub两个文件，这是SSH的一对私钥和秘钥，类似于锁和钥匙。

[root@centos1 ~]# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这条命令用于把公钥加到用于认证的公钥文件中。这里的authorized_keys是用于认证的公钥文件。

至此免密码登录本机已配置完毕，可通过ssh 本机IP 测试是否需要密码登录。操作如图所示：说明配置无密码登录成功！

3、 Hadoop配置

下载 hadoop-1.0.1.tar.gz，将其拷贝到/usr/local/hadoop 目录下，然后在该目录/usr/local/hadoop下解压安装生成文件/hadoop-1.0.1（即为hadoop被安装到/usr/local/hadoop/ hadoop-1. 0.1文件夹下）。

命令如下: tar -zxvf hadoop-1.0.1.tar.gz 解压安装一步完成！

首先配置hadoop的环境变量

命令“vi /etc/profile”

#set hadoop

export HADOOP_HOME=/usr/hadoop/hadoop-1.0.1

export PATH=$HADOOP_HOME/bin:$PATH

命令：source /etc/profile 使刚配置的文件生效！

3.1 进入/usr/local/hadoop/hadoop-1.0.1/conf，配置Hadoop配置文件

3.1.1 配置hadoop-env.sh文件

打开文件命令：vi hadoop-env.sh

添加 # set java environment

export JAVA_HOME=/usr/program/jdk1.6.0_13

编辑后保存退出。

3.1.2 配置core-site.xml

[root@master conf]# vi core-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.default.name</name>

<value>hdfs://localhost:9000/</value> 注：9000后面的“/ ”不能少

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/hadoop-1.0.1/hadooptmp</value>

</property>

</configuration>

说明：hadoop分布式文件系统的两个重要的目录结构，一个是namenode上名字空间的存放地方，一个是datanode数据块的存放地方，还有一些其他的文件存放地方，这些存放地方都是基于hadoop.tmp.dir目录的，比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data，所以设置好hadoop.tmp.dir目录后，其他的重要目录都是在这个目录下面，这是一个根目录。我设置的是/usr/local/hadoop/hadoop-1.0.1/hadooptmp,当然这个目录必须是存在的。

3.1.3 配置hdfs-site.xml

[root@master conf]# vi hdfs-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.replication</name>

</property>

</configuration>

3.1.4 配置mapred-site.xml

[root@master conf]# vi mapred-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

3.1.5 配置masters文件和slaves文件（一般此二文件的默认内容即为下述内容，无需重新配置）

[root@master conf]# vi masters

localhost

[root@master conf]# vi slaves

localhost

注：因为在伪分布模式下，作为master的namenode与作为slave的datanode是同一台服务器，所以配置文件中的ip是一样的。

3.1.6 主机名和IP解析配置 (这一步非常重要！！！)

[root@master ~]# vi /etc/hosts

注：因为是在伪分布模式下，所以master与slave是一台机器

3.1.7编辑主机名：

[root@master ~]# vi /etc/hostname

内容为：mycentos

[root@master ~]# vi /etc/sysconfig/network

说明：这三个位置的配置必须协调一致，Hadpoop才能正常工作！主机名的配置非常重要！

我在上面的配置中没有修改主机名，还是用的mycentos这个主机名，这样容易出错，最好还是将主机名修改为master，在配置中使127.0.0.1 master对应！

4、 Hadoop启动

4.1 进入 /usr/local/hadoop/hadoop-1.0.1/bin目录下，格式化namenode

[root@master bin]# hadoop namenode -format

4.2启动hadoop所有进程

在/usr/local/hadoop/hadoop-1. 0.1/bin 目录下，执行start-all.sh命令

启动完成后，可用[root@master bin]# jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程：如下如所示：

说明：1.secondaryname是namenode的一个备份，里面同样保存了名字空间和文件到文件块的map关系。建议运行在另外一台机器上，这样master死掉之后，还可以通过secondaryname所在的机器找回名字空间，和文件到文件块得map关系数据，恢复namenode。

2.启动之后，在/usr/local/hadoop/hadoop-1.0.1/hadooptmp 下的dfs文件夹里会生成 data目录，这里面存放的是datanode上的数据块数据，因为笔者用的是单机，所以name 和 data 都在一个机器上，如果是集群的话，namenode所在的机器上只会有name文件夹，而datanode上只会有data文件夹。

在搭建过程中，在此环节出现的问题最多，经常出现启动进程不完整的情况，要么是datanode无法正常启动，就是namenode或是TaskTracker启动异常。解决的方式如下：

1. 在Linux下关闭防火墙：使用service iptables stop命令；关闭hadoop：stop-all.sh

1) 重启后生效

开启： chkconfig iptables on

关闭： chkconfig iptables off

2) 即时生效，重启后失效

开启： service iptables start

关闭： service iptables stop

需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。

在开启了防火墙时，做如下设置，开启相关端口，

修改/etc/sysconfig/iptables 文件，添加以下内容：

-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT

-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT

开始我使用的是service方式，但是总不好用，最后使用了chkconfig重启方式，生效！

2.再次对namenode进行格式化：在/usr/local/hadoop/hadoop-1.0.1/bin 目录下执行hadoop namenode -format命令

3.对服务器进行重启

4.查看datanode或是namenode对应的日志文件，日志文件保存在/usr/local/hadoop/hadoop-1. 0.1/logs目录下。仔细查看日志报错的原因，（上次日志报错的信息忘记了）解决方法是进入/usr/local/hadoop/hdfs/name 和usr/local/hadoop/hdfs/data目录下，将目录下的文件全部删除。

5.再次在/bin目录下用start-all.sh命令启动所有进程，通过以上的几个方法应该能解决进程启动不完全的问题了。

6.在执行hadoop相关命令时候，总是出现如下提示：