记一次spark的编译安装

来源：互联网发布：windows server win7 编辑：程序博客网时间：2024/06/16 00:41

PS：这种大型的都系，笔者总是感觉是劳民伤财的事情，特别折腾人。

一、笔者环境说明

1.ubuntu14.04LTS

2.scala2.11.4

3.之前已经安装的hadoop2.6.0

4.protpbuf 2.5（因为安装hadoop2.6.0必须使用这个）

5.其他安装hadoop2.6.0的前置包N个

6.hadoop的安装请参考笔者的另一篇文章

二、spark安装前说明

1.笔者使用的spark版本，是截至2015-02-09的最新版本，spark1.2

2.如果读者不想使用hadoop，可忽略hadoop的安装。这在后续文章说明，而笔者因为之前安装了hadoop，所以就顺带用上了，但也够折腾了。

三、spark的部署说明

在安装spark和学习前，请必读此章。

spark有众多模式，例如 local、standalone、on YARN、on MESOS。

此处笔者为各位科普下部分，但不全。

3.1、on YARN：就是笔者此次的编译安装

其实这个模式，就是spark使用了hadoop的YARN（资源管理器）和HDFS（分布式文件系统）而已。

而spark是可以从本地读取文件生成RDD的，或者从其他的RDD衍生过来。所以并非必须。

3.2、on MESOS：

这个模式，其实就是使用MESOS（资源管理器）

3.3、standalone

这个模式，就是spark使用自己的资源管理器来运维整个部署环境。可以在此模式下建立集群。（YARN、MESOS当然都有集群）

3.4、local

这个模式一般就是测试开发使用，可以使用多线程模拟伪分布式。但一开始就别吸收那么多知识了。

四、几乎上手即用的安装方式

PS：此模式就是用local或者standalone，非YARN、MESOS

4.1、首先安装scala（2.10、2.11都可以）

笔者使用的是scala2.11.4。在官网上spark1.2对应使用的是scala2.10.x版本。但也可兼容scala2.11.x。

在此不详述，请各位参考网上，很简单。

4.2、从官网下载spark1.2

在此读者可能会疑惑官网上为什么不是下载源码就是 with hadoop XX版本。

笔者告诉读者，其实下载 with hadoop的二进制包即可，最好使用最新的，因为约新支持的scala就越新。

这里说明下为什么会有那么多hadoop版本，因为hadoop中不同版本的HDFS不同版本间是非兼容的，所以需要区分hadoop版本来编译或者安装。

下载后，就是配置SCALA_HOME这些简单的东西了。（JAVA_HOME这些不用笔者提示了吧。）

然后进入$SCALA_HOME/bin/spark-shell，运行这个就可以出现大名鼎鼎spark-shell命令提示符了，然后各位就可以开始在此上进行学习或简单开发测试了。

至此，完毕！

五、ON YARN安装编译

PS：这位笔者使用的模式

5.1、确定好java、hadoop、scala、maven等软件安装并且配置好环境变量。

5.2、到官网，或者GITHUB下载好spark1.2的源代码，并解压。

5.3、进入解压的spark1.2目录，执行命令：（笔者回家不全，并有后续说明）

5.4、进入spark安装目录的bin，同样执行spark-shell看看是否可以执行，如果可以表明安装成功。

0 0