安装运行Hadoop

来源：互联网发布：mac照片怎么批量删除编辑：程序博客网时间：2024/06/05 06:32

一、软件依赖

JDK，SSH Client和SSH Server（安装OpenSSH软件套装，包含了这两部分），rsync。

二、参数配置

配置“etc/hadoop/hadoop-env.sh”脚本中“JAVA_HOME”的值，使其为本地JDK安装目录。

三、3种运行模式

3.1、本地运行模式

本地运行模式在本地开启一个Java进程，非分布式的，非常适合于调试情形。

3.2、伪分布式运行模式

在本地运行，通过Java进程来模拟节点。

3.2.1、不使用YARN

1、环境配置
按照如下内容配置“/etc/hadoop/core-site.xml”

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

按照如下内容配置“/etc/hadoop/hdfs-site.xml”

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

配置ssh，使得“ssh localhost”能够正常建立连接
2、运行
1）格式化Namenode

bin/hdfs namenode -format

2）运行Namenode Daemon和Datanode Daemon

sbin/start-dfs.sh

3）通过Web UI访问Namenode

 http://localhost:50070/

4）执行HDFS命令

#递归创建HDFS目录bin/hdfs dfs -mkdir -p /user/dsl/input#把本地"etc/hadoop"目录下的内容复制到HDFS的"/user/dsl/input"目录下bin/hdfs dfs -put etc/hadoop/* /user/dsl/input/

5）运行MapReduce任务

#"/user/dsl/input"和"/user/dsl/output"都为HDFS目录bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep /user/dsl/input /user/dsl/output 'dfs[a-z.]+'

6）关闭Namenode Daemon和Datanode Daemon

sbin/stop-dfs.sh

3.2.2、使用YARN

1、环境配置
按照如下内容配置“/etc/hadoop/core-site.xml”

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

按照如下内容配置“/etc/hadoop/hdfs-site.xml”

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

按照如下内容配置“etc/hadoop/mapred-site.xml”

<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property></configuration>

按照如下内容配置“etc/hadoop/yarn-site.xml”

<configuration>    <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property></configuration>

配置ssh，使得“ssh localhost”能够正常建立连接
2、运行
1）格式化Namenode

bin/hdfs namenode -format

2）运行Namenode Daemon，Datanode Daemon，ResourceManager Daemon和NodeManager Daemon

sbin/start-all.sh

3）通过Web UI访问Namenode

 http://localhost:50070/

4）通过Web UI访问ResourceManager

http://localhost:8088/

5）执行HDFS命令

#递归创建HDFS目录bin/hdfs dfs -mkdir -p /user/dsl/input#把本地"etc/hadoop"目录下的内容复制到HDFS的"/user/dsl/input"目录下bin/hdfs dfs -put etc/hadoop/* /user/dsl/input/

6）运行MapReduce任务

#"/user/dsl/input"和"/user/dsl/output"都为HDFS目录bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep /user/dsl/input /user/dsl/output 'dfs[a-z.]+'

7）关闭Namenode Daemon，Datanode Daemon，ResourceManager Daemon和NodeManager Daemon

sbin/stop-all.sh

3.3、分布式运行模式

待学

参考文献
[1]:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

0 0