Apache Spark:将Apache Spark部署到Hadoop 2.2.0上

来源:互联网 发布:远程连接linux服务器 编辑:程序博客网 时间:2024/05/02 02:06

本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。

需要注意两点

(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等

(2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。

将Spark部署到Hadoop 2.2.0上需要经过以下几步:

步骤1:准备基础软件

步骤2:在Ubuntu12.04上安装与配置Spark

步骤3:运行Spark实例

接下来详细介绍这几个步骤。

步骤1:准备基础软件

包括linux操作系统Ubuntu12.04、Hadoop 2.2.0或者更高版本,其中,Hadoop 2.2.0只需采用最简单的方式安装即可,具体可参考这篇文章:Hadoop YARN安装部署。

·        Ubuntu12.04

·        JDK1.6

·        Haddoop2.2.0(伪分布式安装)

·        Scala2.3.9

·        Spark1.0.2(伪分布式安装)

注意,0.8.1之前的版本不支持hadoop 2.2.0,从0.8.1版本开始支持。

步骤2:在Linux上安装与配置Spark

1、Hadoop2.2.0伪分布式的安装请参见安装文档

下面讲解Hadoop的安装过程和步骤。

1)下载hadoop-2.2.0(官网地址为http://hadoop.apache.org/

选取一个Hadoop镜像网址,下载Hadoop并解压tar包。

  1. $ sudo tar-vxzf hadoop-2.2.0.tar.gz 
  2. $ sudo mv hadoop-2.2.0 hadoop  
  3. $ sudo chown -R hadoop:hadoop hadoop 

2)配置Hadoop环境变量

a编辑profile文件。

  1. Sudo gedit  /etc/profile 

b在profile文件中增加以下内容。

  1. export JAVA_HOME=/usr/lib/jvm/jdk/  
  2. export HADOOP_INSTALL=/usr/local/hadoop  
  3. export PATH=$PATH:$HADOOP_INSTALL/bin  
  4. export PATH=$PATH:$HADOOP_INSTALL/sbin  
  5. export HADOOP_MAPRED_HOME=$HADOOP_INSTALL  
  6. export HADOOP_COMMON_HOME=$HADOOP_INSTALL  
  7. export HADOOP_HDFS_HOME=$HADOOP_INSTALL  
  8. export YARN_HOME=$HADOOP_INSTALL 

通过如上配置就可以让系统找到JDK和Hadoop的安装路径。

3)编辑配置文件

a进入Hadoop所在目录/usr/local/hadoop/etc/hadoop。

b配置hadoop-env.sh文件。

  1. export JAVA_HOME=/usr/lib/jvm/jdk/ 

c配置core-site.xml文件。

d配置yarn-site.xml文件。

e配置mapred-site.xml文件,加入如下内容。

f配置hdfs-site.xml 文件,在文件中添加如下内容。

g配置Master和Slave文件

如:localhost

4)格式化Namenode(在Hadoop根目录下)

如:bin/hadoop namenode -format 

5)启动Hadoop

如:sbin/start-all.sh 

6)查看是否配置和启动成功

如果在x86机器上运行,则通过jps命令,查看相应的JVM进程

如:

2 Scala安装

1) 下载Scala,本文以Scala-2.9.3为例

2) 下载后,拷到指定目录并在指定目录解压,命令为:

如:tar –xzvf scala-2.9.3.tgz

3) 配置环境变量,在/etc/profile增加以下代码

如:export SCALA_HOME=/usr/local/scala-2.9.3

    export PATH=$ SCALA_HOME/bin:$PATH

4)使profile文件更新生效

如:source /etc/profile

5)验证安装

如: scala –version


能够正常显示版本说明则安装成功。

3 Spark安装

spark版本:spark-1.0.2-bin-hadoop2 

下载地址http://spark.apache.org/downloads.html
这里的spark有三个版本:

For Hadoop 1 (HDP1, CDH3): find an Apache mirror or direct file download
    For CDH4: find an Apache mirror or direct file download
    For Hadoop 2 (HDP2, CDH5): find an Apache mirror or direct file download
我的hadoop版本是hadoop2.2.0.的,所以下载的是for hadoop2。(Hadoop2同理,只需要换成Spark的Hadoop2版本即可)

1)下载Spark(注意要下载对应Hadoop版本的Spark程序包,本文以Spark1.0.2为例)

2)下载后,拷到指定目录并在指定目录解压,命令为:

如:tar –xzvf spark-1.0.2-bin-hadoop2.tgz

3) 将解压出的文件夹改名为spark,并将该spark文件夹的属主用户设为hadoop

4)配置环境变量,在/etc/profile增加以下代码

如:export SPARK_HOME=/usr/local/spark

export PATH=$ SPARK_HOME /bin:$PATH

source/etc/profile使profile文件更新生效。

5)配置conf/spark-env.sh文件

如:

6)配置Master和Slaves文件,编辑/conf/Master、Slaves

如:localhost(Master)

    Localhost(Slave1、Slave2….)

7)Spark启动与关闭

如:sbin/start-all.sh

    Sbin/stop-all.sh

通过jps查看启动是否成功:

8)Hadoop启动与关闭

如:bin/start-all.sh

    bin/stop-all.sh

9)检测是否安装成功


至此,在Linux上安装与配置Spark伪分布式告一段落。

测试Spark是否安装成功:


可以通过http://localhost:8080/查看spark集群状况。

可以通过http://localhost:50070/可以查看hdfs状态信息:

步骤3:运行Spark实例

请参考文档Spark下如何运行Java版本的WordCount

http://blog.csdn.net/leijie0322/article/details/44281241

参考文献

1 http://book.51cto.com/art/201502/466010.htm

2 http://blog.csdn.net/gaoyanjie55/article/details/34420933

3http://blog.csdn.net/freedomboy319/article/details/43953731

4 http://blog.csdn.net/u012480384/article/details/40988181

5 http://blog.csdn.net/anycom/article/details/38943837

6 http://blog.csdn.net/sunflower_cao/article/details/26458189

0 0