hadoop单机环境搭建

来源：互联网发布：java如何进行异常处理编辑：程序博客网时间：2024/04/30 02:03

环境：
宿主机系统：windows7

虚拟机：Oracle VMVirtualBox

Linux: ubuntukylin-14.04.1-amd64.iso

jdk:1.7.0_101

hadoop:2.7.2

虚拟主机1台
网络模式：桥接

hadoop位置
/usr/local/hadoop

hadoop下载地址：

http://apache.fayea.com/hadoop/common/stable/

Step1：安装JDK
安装过程可参考：http://blog.csdn.net/lanonola/article/details/51479127

Step2：安装SSH

安装过程可参考：http://blog.csdn.net/lanonola/article/details/51384914
Step3：配置SSH免密码登录

1.输入命令：ssh-keygen -t dsa -P ''";

执行完该指令后，在/root/.ssh目录下会出现两个文件：id_dsa和id_dsa.pub文件；

2.输入命令： cat ./id_dsa.pub >> authorized_keys;

3.输入命令：sshlocalhost

查看是否可以无密码登录，

出现错误：The authenticity of host 'localhost (127.0.0.1)' can't beestablished.

4.更改权限

输入命令：

chmod700 /root/.ssh
chmod 644 /root/.ssh/authorized_keys

执行完上述命令之后，/root/.ssh文件中多了一个文件known_hosts,

再次运行ssh localhost,可以无密码登录；

Step4：源码安装hadoop

打开网址：http://apache.fayea.com/hadoop/common/stable/

下载：hadoop-2.7.2.tar.gz

1.将文件解压:

tar zxvf hadoop-2.7.2.tar.gz /usr/local

2.进入hadoop的目录 cd /usr/local/hadoop

主要目录结构为：

bin：Hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。

etc：Hadoop配置文件所在的目录，包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop 1.0继承而来的配置文件和yarn-site.xml等Hadoop 2.0新增的配置文件。

include：对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。

lib：该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。

libexec：各个服务对应的shell配置文件所在目录，可用于配置日志输出目录、启动参数（比如JVM参数）等基本信息。

sbin：Hadoop管理脚本所在目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

share：Hadoop各个模块编译后的jar包所在目录

3.修改配置文件

1）/usr/local/hadoop/etc/hadoop/下

NO1:hadoop-env.sh修改如下配置

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

NO2:slaves

默认为localhost，可修改为其他名称，这里修改为YARN001

NO3：mapred-site.xml 在<configuration></ configuration >之间添加

<name>mapreduce.framework.name</name>

</property>

NO4:core-site.xml 在<configuration></configuration >之间添加

<name>fs.default.name</name>

</property>

NO5:yarn-site.xml 在<configuration></configuration >之间添加

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</ value>

</property>

NO6:core-site.xml

<property:

<name>dfs.replication</name>

</property>

Step5：启动服务

1.格式化HDFS

命令：cd /usr/local/hadoop/bin

命令：./hadoop namenode -format

2.启动HDFS

命令：cd /usr/local/hadoop/sbin

命令：./start-dfs.sh

3.启动YARN

命令：cd /usr/local/hadoop/sbin

命令：./start-yarn.sh

Step6：验证部署是否成功

http://yarn001:8088/cluster

http://yarn001:50070

0 0