安装hadoop

来源:互联网 发布:阿里云上海代理商 编辑:程序博客网 时间:2024/05/21 03:56

先决条件

安装jdk

安装

下载hadoop发布包(apache官网)

解压下载后的压缩包

运行hadoop程序前指定JAVA_HOME,如果系统JAVA_HOME环境变量已经正确设定则无需进行其他配置,通常在/etc/profile启动脚本中设置。

创建一个指向hadoop安装目录的环境变量HADOOP_INSTALL,并将其加入PATH;

输入hadoop -version验证安装是否成功。


配置

hadoop的各个组件均用xml配置:

core-site.xml配置Common组件

hdfs-site.xml配置HDFS属性

mapred-site.xml配置MapReduce属性

这些配置文件在conf子目录中


Hadoop运行模式

独立模式(standalone)

无需任何守护进程,所有程序运行在一个JVM中,调试方便,适用于开发阶段。

伪分布模式(pseudo-distributed model)

Hadoop守护进程运行在本地机器上,模拟一个小规模集群

完全分布式模式(fully-distributed model)

Hadoop守护进程运行在一个集群上。


在特定模式中运行Hadoop,需要关注两个因素:正确设置属性和启动Hadoop守护进程。

在本机模式下使用本地文件系统与本地Mapreduce作业运行器。在分布式模式下启动HDFS和MapReduce守护进程。

不同模式属性设置见下图所示:

本机模式

由于默认配置文件专为本模式所设置,所以无需进行其他设置。

伪分布式模式

分别按上图设置core-site.xml,hdfs-site.xml,mapred-site.xml文件。


配置SSH

在伪分布模式下必须启动守护进程,而启动守护进程的前提是已经安装SSH,Hadoop不区分伪分布模式和完全分布模式,它只是启动集群主机集(slave文件定义)的守护进程:SSH-ing到各个主机并启动一个守护进程。在伪分布模式下,主机就是本地计算机。必须确保可以SSH到本地主机,且不需要密码即可登录。


格式化HDFS文件系统

在使用hadoop前必须格式化一个全新的HDFS。通过创建存储目录和namenode持久化数据结构的初始版本,格式化过程中创建一个空的文件系统。由于namenode管理文件系统的元数据,而datenode可以动态的加入或离开集群,因此格式化过程中不包括datanode。同样,用户也无需关注文件系统规模,集群中datanode的数量决定文件系统的规模。

格式化文件系统键入如下命令:

hadoop namenode -format

启动和终止守护进程

为启动守护进程键入如下命令:

start-dfs.sh

start-mapred.sh

本地计算机将启动三个守护进程:namenode,辅助namenode以及datanode。可以浏览logs目录中的日志文件检查启动是否成功,或通过web页面:在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode.此外java的jps命令也能查看守护进程是否在运行。

终止守护进程键入如下命令:

stop-dfs.sh

stop-mapred.sh

0 0
原创粉丝点击