Apache Spark：将Apache Spark部署到Hadoop 2.2.0上

来源：互联网发布：远程连接linux服务器编辑：程序博客网时间：2024/05/02 02:06

本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上，如果你们的Hadoop是其他版本，比如CDH4，可直接参考官方说明操作。

需要注意两点：

（1）使用的Hadoop必须是2.0系列，比如0.23.x，2.0.x，2.x.x或CDH4、CDH5等，将Spark运行在Hadoop上，本质上是将Spark运行在Hadoop YARN上，因为Spark自身只提供了作业管理功能，资源调度要依托于第三方系统，比如YARN或Mesos等

（2）之所以不采用Mesos而是YARN，是因为YARN拥有强大的社区支持，且逐步已经成为资源管理系统中的标准。

将Spark部署到Hadoop 2.2.0上需要经过以下几步：

步骤1：准备基础软件

步骤2：在Ubuntu12.04上安装与配置Spark

步骤3：运行Spark实例

接下来详细介绍这几个步骤。

步骤1：准备基础软件

包括linux操作系统Ubuntu12.04、Hadoop 2.2.0或者更高版本，其中，Hadoop 2.2.0只需采用最简单的方式安装即可，具体可参考这篇文章：Hadoop YARN安装部署。

· Ubuntu12.04

· JDK1.6

· Haddoop2.2.0(伪分布式安装)

· Scala2.3.9

· Spark1.0.2(伪分布式安装)

注意，0.8.1之前的版本不支持hadoop 2.2.0，从0.8.1版本开始支持。

步骤2：在Linux上安装与配置Spark

1、Hadoop2.2.0伪分布式的安装请参见安装文档

下面讲解Hadoop的安装过程和步骤。

1）下载hadoop-2.2.0（官网地址为http://hadoop.apache.org/）

选取一个Hadoop镜像网址，下载Hadoop并解压tar包。

$ sudo tar-vxzf hadoop-2.2.0.tar.gz
$ sudo mv hadoop-2.2.0 hadoop
$ sudo chown -R hadoop:hadoop hadoop

2）配置Hadoop环境变量

a编辑profile文件。

Sudo gedit /etc/profile

b在profile文件中增加以下内容。

export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL

通过如上配置就可以让系统找到JDK和Hadoop的安装路径。

3）编辑配置文件

a进入Hadoop所在目录/usr/local/hadoop/etc/hadoop。

b配置hadoop-env.sh文件。

export JAVA_HOME=/usr/lib/jvm/jdk/

c配置core-site.xml文件。

d配置yarn-site.xml文件。

e配置mapred-site.xml文件，加入如下内容。

f配置hdfs-site.xml 文件，在文件中添加如下内容。

g配置Master和Slave文件

如：localhost

4）格式化Namenode（在Hadoop根目录下）

如：bin/hadoop namenode -format

5）启动Hadoop

如：sbin/start-all.sh

6）查看是否配置和启动成功

如果在x86机器上运行，则通过jps命令，查看相应的JVM进程

如：

2 Scala安装

1）下载Scala，本文以Scala-2.9.3为例

2）下载后，拷到指定目录并在指定目录解压，命令为：

如：tar –xzvf scala-2.9.3.tgz

3）配置环境变量，在/etc/profile增加以下代码

如：export SCALA_HOME=/usr/local/scala-2.9.3

export PATH=$ SCALA_HOME/bin:$PATH

4)使profile文件更新生效

如：source /etc/profile

5)验证安装

如： scala –version

能够正常显示版本说明则安装成功。

3 Spark安装

spark版本：spark-1.0.2-bin-hadoop2

下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本：

For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
For CDH4: find an Apache mirror or direct file download
For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop2.2.0.的，所以下载的是for hadoop2。（Hadoop2同理，只需要换成Spark的Hadoop2版本即可）

1）下载Spark（注意要下载对应Hadoop版本的Spark程序包，本文以Spark1.0.2为例）

2）下载后，拷到指定目录并在指定目录解压，命令为：

如：tar –xzvf spark-1.0.2-bin-hadoop2.tgz

3）将解压出的文件夹改名为spark，并将该spark文件夹的属主用户设为hadoop