ubuntu下hadoop配置指南

来源：互联网发布：苹果同步助手软件编辑：程序博客网时间：2024/06/05 02:51

第一条命令将当前用户切换为hadoop（如果当前用户就是hadoop，则无需输入），第二条命令将生成一个公钥和私钥对（即id_dsa和id_dsa.pub两个文件，位于~/.ssh文件夹下），第三条命令使得hadoop用户能够无需输入密码通过SSH访问localhost。这时可通过以下命令来验证安装是否成功（如果没有提示输入密码直接登录成功，则说明安装成功）：

[sql] view plaincopy
ssh localhost  

（3）配置Hadoop

Hadoop的配置文件都放在/hadoop/conf这个文件夹下面，主要是四个配置文件，分别是core-site.xml,hadoop-env.sh,hdsf-site.xml和mapred-site.xml。

修改conf/hadoop-‐env.sh，设置JAVA_HOME，在该文件中找到如下行，去掉前面的注释。

将

[sql] view plaincopy
# Thejava implementation to use. Required.  
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun  

修改为：

[sql] view plaincopy
# Thejava implementation to use.  Required.  
export JAVA_HOME=/usr/lib/jvm/jdk1.6.0_27  

修改core-site.xml内容如下：

[sql] view plaincopy
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?>  
<!-- Put site-specific property overrides in thisfile. -->  
<configuration>  
 <property>  
   <name>fs.default.name</name>  
  <value>hdfs://localhost:9000</value>  
 </property>  
 <property>  
   <name>hadoop.tmp.dir</name>  
   <value>/home/hadoop/program/tmp-${user.name}</value>  
  </property>  
</configuration>  

修改conf/hdfs-site.xml为

[sql] view plaincopy
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?>  
<!-- Put site-specific property overrides in thisfile. -->  
<configuration>  
    <property>  
        <name>dfs.replication</name>  
        <value>1</value>  
    </property>  
</configuration>  

修改conf/mapred-site.xml为：

[sql] view plaincopy
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?>  
<!-- Put site-specific property overrides in thisfile. -->  
<configuration>  
    <property>  
       <name>mapred.job.tracker</name>  
       <value>localhost:9001</value>  
    </property>  
</configuration>  

（4）运行Hadoop（当前用户为hadoop）

以上操作已经完成对Hadoop的配置，接下来是运行Hadoop。第一步需要进行格式化HDFS，运行脚本主要位于HADOOP_HOME/bin目录下，注意HADOOP_HOME为解压缩之后的Hadoop根目录，此处为/home/hadoop/program/hadoop-0.20.1。格式化HDFS命令为：（假设当前目录是已经在/home/hadoop/program/hadoop-0.20.1/bin/）下

[sql] view plaincopy
./hadoop namenode –format  

启动单节点集群：

[sql] view plaincopy
./start-all.sh  

这个操作会在本机上启动Namenode,SecondaryNameNode,Datanode,JobTracker和TaskTracker共计5个JVM进程，可以通过java自带的jps命令查看。

[sql] view plaincopy
jps  

通过jps命令可以查看到进程如下：

[sql] view plaincopy
19811 TaskTracker  
19674 SecondaryNameNode  
19735 JobTracker  
19497 NameNode  
20879 TaskTracker  
21810 Jps  

停止单节点集群：

[sql] view plaincopy
./stop-all.sh  

另外可以通过以下网址查看节点的运行情况：
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态

1.3. 在多节点（分布式）环境下运行Hadoop

搭建多节点集群的思想主要是在每一台机器上分别搭建好单机环境，再将几台机器整合成一个集群。因此，在此之前，请确保每一台机器都如1.2节中所述搭建好了单机环境（最好是相同的结构）。这里说的相同结构是指hadoop安装在项目的目录下，然后多个节点使用都使用相同的用户名操作hadoop集群。比如使用用户名hadoop。这个在hadoop搭建注意事项汇总中的第一条里面有提到。我第一次部署的时候，因为第一台slave机器使用hadoop账户配置hadoop环境，而第二台master机器使用xuwei这个账户配置hadoop环境，这样在ssh的时候也会出现问题。我使用xuwei账户ssh slave，找到的不是hadoop@slave，而是xuwei@slave。最后在slave上新建了一个hadoop账户才解决问题。

（1）设置/etc/hosts文件

实验中两台机器处于同一局域网中，其中一台作为master，ip地址为192.168.0.55，一台作为slave，ip地址为192.168.0.42。更新两台机器的/etc/hosts文件，使用如下命令：

[sql] view plaincopy
sudo gedit /etc/hosts  

添加以下内容：

[sql] view plaincopy
# /etc/hosts (for master AND slave)  
192.168.0.55 master  
192.168.0.42 slave  

（2）设置节点之间的无密码SSH登录

这里要求master上的用户hadoop必须能够无密码登录到master和slave两台机器上。经过1.2节第（2）步的配置，已经可以在单机上进行密码SSH登录，这里只需设置由master无密码登录到slave，采用如下命令即可：在master上运行:

[sql] view plaincopy
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hadoop@slave  

这条命令的意思是将master上的公钥拷贝到slave上，这样下次ssh slave的时候slave就认识master，无需在输入密码验证。

如下命令可以测试SSH连接成功与否：

[sql] view plaincopy
ssh master  
ssh slave  

（3）修改集群配置文件

hadoop集群的架构分为两层：HDFS层和MapReduce层，在HDFS层，master将作为NameNode和DataNode，slave作为DataNode；在MapReduce层，master将作为JobTracker和TaskTracker，而slave将作为TaskTracker。值得一提的是，本次实验中master节点既作为管理节点，又担当数据节点。接下来需要修改$HADOOP_HOME/conf/下的配置文件。在master节点上修改conf/masters文件，添加如下内容：

[sql] view plaincopy
master  

在master节点上修改conf/slaves文件，添加如下内容（这表明master节点具有双重角色，即做master，又做slave）：

[sql] view plaincopy
master  
slave  

如果需要添加更多slave，则可以在conf/slaves中将其他节点的名称添加进去，如下所示：

[sql] view plaincopy
master  
slave  
anotherslave01  
anotherslave02  

在所有节点上修改conf/core-site.xml，更改fs.default.name的值为hdfs://master:9000，具体为：

[sql] view plaincopy
<property>  
    <name>fs.default.name</name>  
    <value>hdfs://master:9000</value>  
</property>  

在所有节点上修改conf/mapred-site.xml，将JobTracker的地址改为master具体为：

[sql] view plaincopy
<property>  
    <name>mapred.job.tracker</name>  
    <value>hdfs://master:9001</value>  
</property>  

在所有节点上修改conf/hdfs-site.xml，将更改dfs.replication的值，这个参数决定了集群中一个文件需要保存为多少个拷贝。其默认值为3，因本次试验节点数为2，故更改为2。具体为：

[sql] view plaincopy
<property>  
      <name>dfs.replication</name>  
      <value>2</value>  
</property>  

（4）格式化HDFS

注意：如果之前单机环境下格式化过HDFS建议把之前的文件删除，否则可能会出现异常(HDFS目录即之前设置的${hadoop.tmp.dir}\dfs目录)。格式化命令和单机情况下类似，只是需要在master节点上运行。

[sql] view plaincopy
./hadoop namenode -format  

（5）启动和停止集群

在master节点上首先启动HDFS，其命令为：

[sql] view plaincopy
./start-dfs.sh  

其结果是在master节点上启动NameNode,SecondaryNameNode和DataNode，在所有slave节点上启动DataNode，通过jps命令可以查看master上启动的服务列表：

[sql] view plaincopy
hadoop@master:~$ jps  
14799 NameNode  
15314 Jps  
14880 DataNode  
14977 SecondaryNameNode  

此时slave上的进程列表如下：

[sql] view plaincopy
hadoop@master:~$ jps  
15183 Jps  
15616 DataNode  

其次，在master节点上启动MapReduce，其命令为：

[sql] view plaincopy
./start-mapred.sh  

这样将会在master 节点上启动JobTracker 和TaskTracker ，在所有slave 节点上启动TaskTracker，通过jps命令可以查看master上启动的服务列表：

[sql] view plaincopy
hadoop@master:~$ jps  
14799 NameNode  
15314 Jps  
14880 DataNode  
14977 SecondaryNameNode  
15686 TaskTracker  
15596 JobTracker  

此时slave上的进程列表如下：

[sql] view plaincopy
hadoop@slave:~$ jps  
15183 DataNode  
15897 TaskTracker  
16284 Jps  

如要停止集群，则需要将上述步骤反过来运行，首先在master上运行

[sql] view plaincopy
./stop-mapred.sh  

其次在master上运行以下命令停止HDFS：

[sql] view plaincopy
./stop-dfs.sh  

这个过程也可通过jps命令来查看是否完成。

三.运行WordCount词频统计程序

代码参考博客：Hadoop WordCount改进实现正确识别单词以及词频降序排序。

在eclipse下运行配置参照： eclipse运行wordcount参数配置

0 0

ubuntu下hadoop配置指南

目录

一 . 实验目的

二 . 实验内容

1.2. 在单节点（伪分布式）环境下运行Hadoop

（1）添加 hadoop用户并赋予sudo权限（可选）

（2）配置 SSH

（3）配置Hadoop

（4）运行Hadoop（当前用户为hadoop）

1.3. 在多节点（分布式）环境下运行Hadoop

（1）设置/etc/hosts文件

（2）设置节点之间的无密码SSH登录

（3）修改集群配置文件

（4）格式化HDFS

（5）启动和停止集群

三.运行WordCount词频统计程序

ubuntu下hadoop配置指南

目录

一 . 实验目的

二 . 实验内容

1.2. 在单节点（伪分布式）环境下运行Hadoop

（1）添加 hadoop用户并赋予sudo权限（可选）

（2）配置 SSH

（3） 配置Hadoop

（4） 运行Hadoop（当前用户为hadoop）

1.3. 在多节点（分布式）环境下运行Hadoop

（1） 设置/etc/hosts文件

（2） 设置节点之间的无密码SSH登录

（3） 修改集群配置文件

（4） 格式化HDFS

（5） 启动和停止集群

三.运行WordCount词频统计程序

（3）配置Hadoop

（4）运行Hadoop（当前用户为hadoop）

（1）设置/etc/hosts文件

（2）设置节点之间的无密码SSH登录

（3）修改集群配置文件

（4）格式化HDFS

（5）启动和停止集群