记一次spark的编译安装

来源:互联网 发布:windows server win7 编辑:程序博客网 时间:2024/06/16 00:41

PS:这种大型的都系,笔者总是感觉是劳民伤财的事情,特别折腾人。



一、笔者环境说明

1.ubuntu14.04LTS

2.scala2.11.4

3.之前已经安装的hadoop2.6.0

4.protpbuf 2.5(因为安装hadoop2.6.0必须使用这个)

5.其他安装hadoop2.6.0的前置包N个

6.hadoop的安装请参考笔者的另一篇文章


二、spark安装前说明

1.笔者使用的spark版本,是截至2015-02-09的最新版本,spark1.2

2.如果读者不想使用hadoop,可忽略hadoop的安装。这在后续文章说明,而笔者因为之前安装了hadoop,所以就顺带用上了,但也够折腾了。


三、spark的部署说明

在安装spark和学习前,请必读此章。

spark有众多模式,例如 local、standalone、on YARN、on MESOS。

此处笔者为各位科普下部分,但不全。

3.1、on YARN:就是笔者此次的编译安装

其实这个模式,就是spark使用了hadoop的YARN(资源管理器)和HDFS(分布式文件系统)而已。

而spark是可以从本地读取文件生成RDD的,或者从其他的RDD衍生过来。所以并非必须。

3.2、on MESOS:

这个模式,其实就是使用MESOS(资源管理器)

3.3、standalone

这个模式,就是spark使用自己的资源管理器来运维整个部署环境。可以在此模式下建立集群。(YARN、MESOS当然都有集群)

3.4、local

这个模式一般就是测试开发使用,可以使用多线程模拟伪分布式。但一开始就别吸收那么多知识了。


四、几乎上手即用的安装方式

PS:此模式就是用local或者standalone,非YARN、MESOS

4.1、首先安装scala(2.10、2.11都可以)

笔者使用的是scala2.11.4。在官网上spark1.2对应使用的是scala2.10.x版本。但也可兼容scala2.11.x。

在此不详述,请各位参考网上,很简单。

4.2、从官网下载spark1.2

在此读者可能会疑惑官网上为什么不是下载源码就是 with hadoop XX版本。

笔者告诉读者,其实下载 with hadoop的二进制包即可,最好使用最新的,因为约新支持的scala就越新。

这里说明下为什么会有那么多hadoop版本,因为hadoop中不同版本的HDFS不同版本间是非兼容的,所以需要区分hadoop版本来编译或者安装。

下载后,就是配置SCALA_HOME这些简单的东西了。(JAVA_HOME这些不用笔者提示了吧。)

然后进入$SCALA_HOME/bin/spark-shell,运行这个就可以出现大名鼎鼎spark-shell命令提示符了,然后各位就可以开始在此上进行学习或简单开发测试了。

至此,完毕!


五、ON YARN安装编译

PS:这位笔者使用的模式

5.1、确定好java、hadoop、scala、maven等软件安装并且配置好环境变量。

5.2、到官网,或者GITHUB下载好spark1.2的源代码,并解压。

5.3、进入解压的spark1.2目录,执行命令:(笔者回家不全,并有后续说明)

5.4、进入spark安装目录的bin,同样执行spark-shell看看是否可以执行,如果可以表明安装成功。

0 0