Spark编译

来源:互联网 发布:图书管理系统java需求 编辑:程序博客网 时间:2024/06/04 00:14

因为要用到GBTClassifier模型,需要计算预测类别的概率,而官网最新发布的(截至发文)为2.1.1,不包含此功能,查看在Github上的GBTClassifier源码已经增加了此功能,官网还没更新,预计在2.2.0时会发布,但是可以自己编译使用,特作笔记以便后续使用。


1.Github下载源码https://github.com/apache/spark,ps: github上可以查看spark的一些更新,方便自己使用

2.下载meavn http://maven.apache.org/download.cgi,在linux环境下编译,配置环境变量如下:
export MAVEN_HOME=/home/ubuntu/maven
export MAVEN_OPTS=”-Xmx2g -XX:ReservedCodeCacheSize=512m”
export PATH=$MAVEN_HOME: $PATH
关于MAVEN_OPTS,针对jdk1.7官网也有说明

3.进入下载的源码包的目录,执行:
./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package
然后就是等待编译了,编译好后就正常发布使用
(可能由于网络的原因会造成失败,多试几次总行的)

4.参考官网的编译过程http://spark.apache.org/docs/latest/building-spark.html