安装hadoop

来源：互联网发布：阿里云上海代理商编辑：程序博客网时间：2024/05/21 03:56

先决条件

安装jdk

安装

下载hadoop发布包（apache官网）

解压下载后的压缩包

运行hadoop程序前指定JAVA_HOME，如果系统JAVA_HOME环境变量已经正确设定则无需进行其他配置，通常在/etc/profile启动脚本中设置。

创建一个指向hadoop安装目录的环境变量HADOOP_INSTALL，并将其加入PATH；

输入hadoop -version验证安装是否成功。

配置

hadoop的各个组件均用xml配置：

core-site.xml配置Common组件

hdfs-site.xml配置HDFS属性

mapred-site.xml配置MapReduce属性

这些配置文件在conf子目录中

Hadoop运行模式

独立模式（standalone）

无需任何守护进程，所有程序运行在一个JVM中，调试方便，适用于开发阶段。

伪分布模式（pseudo-distributed model）

Hadoop守护进程运行在本地机器上，模拟一个小规模集群

完全分布式模式（fully-distributed model）

Hadoop守护进程运行在一个集群上。

在特定模式中运行Hadoop，需要关注两个因素：正确设置属性和启动Hadoop守护进程。

在本机模式下使用本地文件系统与本地Mapreduce作业运行器。在分布式模式下启动HDFS和MapReduce守护进程。

不同模式属性设置见下图所示：

本机模式

由于默认配置文件专为本模式所设置，所以无需进行其他设置。

伪分布式模式

分别按上图设置core-site.xml，hdfs-site.xml，mapred-site.xml文件。

配置SSH

在伪分布模式下必须启动守护进程，而启动守护进程的前提是已经安装SSH，Hadoop不区分伪分布模式和完全分布模式，它只是启动集群主机集（slave文件定义）的守护进程：SSH-ing到各个主机并启动一个守护进程。在伪分布模式下，主机就是本地计算机。必须确保可以SSH到本地主机，且不需要密码即可登录。

格式化HDFS文件系统

在使用hadoop前必须格式化一个全新的HDFS。通过创建存储目录和namenode持久化数据结构的初始版本，格式化过程中创建一个空的文件系统。由于namenode管理文件系统的元数据，而datenode可以动态的加入或离开集群，因此格式化过程中不包括datanode。同样，用户也无需关注文件系统规模，集群中datanode的数量决定文件系统的规模。

格式化文件系统键入如下命令：

hadoop namenode -format

启动和终止守护进程

为启动守护进程键入如下命令：

start-dfs.sh

start-mapred.sh

本地计算机将启动三个守护进程：namenode,辅助namenode以及datanode。可以浏览logs目录中的日志文件检查启动是否成功，或通过web页面：在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode.此外java的jps命令也能查看守护进程是否在运行。

终止守护进程键入如下命令：

stop-dfs.sh

stop-mapred.sh

0 0