安装运行Hadoop

来源:互联网 发布:mac照片怎么批量删除 编辑:程序博客网 时间:2024/06/05 06:32

一、软件依赖

JDK,SSH Client和SSH Server(安装OpenSSH软件套装,包含了这两部分),rsync。

二、参数配置

配置“etc/hadoop/hadoop-env.sh”脚本中“JAVA_HOME”的值,使其为本地JDK安装目录。

三、3种运行模式

3.1、本地运行模式

本地运行模式在本地开启一个Java进程,非分布式的,非常适合于调试情形。

3.2、伪分布式运行模式

在本地运行,通过Java进程来模拟节点。

3.2.1、不使用YARN

1、环境配置
按照如下内容配置“/etc/hadoop/core-site.xml”

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

按照如下内容配置“/etc/hadoop/hdfs-site.xml”

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

配置ssh,使得“ssh localhost”能够正常建立连接
2、运行
1)格式化Namenode

bin/hdfs namenode -format

2)运行Namenode Daemon和Datanode Daemon

sbin/start-dfs.sh

3)通过Web UI访问Namenode

 http://localhost:50070/

4)执行HDFS命令

#递归创建HDFS目录bin/hdfs dfs -mkdir -p /user/dsl/input#把本地"etc/hadoop"目录下的内容复制到HDFS的"/user/dsl/input"目录下bin/hdfs dfs -put etc/hadoop/* /user/dsl/input/

5)运行MapReduce任务

#"/user/dsl/input""/user/dsl/output"都为HDFS目录bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep /user/dsl/input /user/dsl/output 'dfs[a-z.]+'

6)关闭Namenode Daemon和Datanode Daemon

sbin/stop-dfs.sh

3.2.2、使用YARN

1、环境配置
按照如下内容配置“/etc/hadoop/core-site.xml”

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

按照如下内容配置“/etc/hadoop/hdfs-site.xml”

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

按照如下内容配置“etc/hadoop/mapred-site.xml”

<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property></configuration>

按照如下内容配置“etc/hadoop/yarn-site.xml”

<configuration>    <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property></configuration>

配置ssh,使得“ssh localhost”能够正常建立连接
2、运行
1)格式化Namenode

bin/hdfs namenode -format

2)运行Namenode Daemon,Datanode Daemon,ResourceManager Daemon和NodeManager Daemon

sbin/start-all.sh

3)通过Web UI访问Namenode

 http://localhost:50070/

4)通过Web UI访问ResourceManager

http://localhost:8088/

5)执行HDFS命令

#递归创建HDFS目录bin/hdfs dfs -mkdir -p /user/dsl/input#把本地"etc/hadoop"目录下的内容复制到HDFS的"/user/dsl/input"目录下bin/hdfs dfs -put etc/hadoop/* /user/dsl/input/

6)运行MapReduce任务

#"/user/dsl/input""/user/dsl/output"都为HDFS目录bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep /user/dsl/input /user/dsl/output 'dfs[a-z.]+'

7)关闭Namenode Daemon,Datanode Daemon,ResourceManager Daemon和NodeManager Daemon

sbin/stop-all.sh

3.3、分布式运行模式

待学



参考文献
[1]:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html

0 0
原创粉丝点击