ubuntu安装hadoop集群

来源:互联网 发布:linux服务器时间同步 编辑:程序博客网 时间:2024/04/28 12:22

一.上传hadoop的压缩包,或者下载,放在指定的文件夹,我放在  /usr/local/hadoop/  中

二.上传完成后解压缩压缩包

       执行命令  tar -xzvf hadoop-0.20.2.tar.gz

       如果是root运行的,还需降hadoop的执行者,为你要搭建集群环境的用户和组  例如:降为hadoop用户

       chown -R hadoop:hadoop hadoop-0.20.2

三.配置hadoop环境变量

     1.(JAVA_HOME的环境变量已经配置)

         在  hadoop-0.20.2/conf/hadoop-env.sh 中编辑JAVA_HOME

       

    2.HADOOP_HOME的设置,通过修改  /etc/profile 文件,可以参照jdk环境变量

    

    执行 source /etc/profile 是配置生效

   3.hadoop系统日志文件

    默认的日志文件在HADOOP_HOME/logs 目录下,现在指点在另一个文件中

   在 hadoop-env.sh 中添加   export  HADOOP_LOG_DIR=/var/log/hadoop  (注意用户hadoop的权限)

 注:运行hadoop version 如果出现permission denied,是权限不够,可以对出现的文件 执行  chmod +x 命令

四.LinuxHadoop伪分布模式(Hadoop可以在单节点上以所谓的伪分布式模式运行)

(1)编辑/hadoop-0.20.2/conf/core-site.xml (可以拷贝/hadoop-0.20.2/src/core/core-default.xml到conf文件中,然后改名为core-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3. <!-- Put site-specific property overrides in this file. -->

4. <configuration>

5.   <property> 

6.     <name>fs.default.name</name> 

7.     <value>hdfs://localhost:9000</value> 

8.   </property> 

9. </configuration>

(2)编辑 /hadoop-0.20.2/conf/hdfs-site.xml (可以拷贝/hadoop-0.20.2/src/hdfs/hdfs-default.xml到conf文件中,然后改名为hdfs-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3. <!-- Put site-specific property overrides in this file. -->

4. <configuration>

5.   <property> 

6.     <name>dfs.replication</name> 

7.     <value>1</value> 

8.   </property> 

9. </configuration>

(3)编辑 /hadoop-0.20.2/conf/mapred-site.xml(可以拷贝/hadoop-0.20.2/src/mapred/mapred-default.xml到conf文件中,然后改名为mapred-site.xml,在做修改)

1. <?xml version="1.0"?>

2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

3. <!-- Put site-specific property overrides in this file. -->

4. <configuration>

5.   <property> 

6.     <name>mapred.job.tracker</name> 

7.     <value>localhost:9001</value> 

8.   </property> 

9. </configuration>

五.Hadoop集群搭建(我的是用的是三个节点)

      集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker这些机器是masters余下的机器即作为DataNode作为TaskTracker

     这些机器是   slaves

     三台机器时,可将NameNodeJobTracker指定为同一台机器,

   1.配置每台机器的/etc/hosts保证各台机器之间通过机器名可以互访

   

   同时配置每台机器的 masters和slaves两个文件,填写机器名

 2.配置core-site.xml文件

 (在这之前首先对hadoop format 进入hadoop执行 bin/hadoop namenode -format,format成功会有,tmp文件下生成新的一个文件)hadoop存储数据块的位置目录

  <property>
  <name>hadoop.tmp.dir</name>
  <value>/tmp/hadoop-root/dfs/tmp</value>
  </property>

  <property>
  <name>fs.default.name</name>
  <value>hdfs://master:9000</value>
  </property>

 3.配置hdfs-site.xml文件

 <property>
  <name>dfs.replication</name>
  <value>2</value>
</property>

<property>
  <name>dfs.name.dir</name>
  <value>/tmp/hadoop-root/dfs/name</value>
</property>

<property>
  <name>dfs.data.dir</name>
  <value>/tmp/hadoop-root/dfs/data</value>
</property>

4.配置mapred-site.xml文件

<property>
  <name>mapred.job.tracker</name>
  <value>hdfs://master:9001</value>
</property>

5.拷贝master的配置文件到salves机器的配置中,在tmp中建立同样的文件夹,对每个salves进行format

6.启动 执行start-all.sh

7.停止 执行 stop-all.sh



8.再启动时



六.完成这些后查看各个节点的进程

master

salves1

salves2

七,查看集群状态



初学者,初次配置不知是否正确,欢迎交流!

  






   

 







原创粉丝点击