spark1.3.1安装和集群的搭建

来源：互联网发布：周志明 java虚拟机编辑：程序博客网时间：2024/06/05 22:33

由于越来越多的人开始使用spark计算框架了，而且spark计算框架也是可以运行在yarn的平台上，因此可以利用单个集群，运行多个计算框架。这是一些大公司都是这么干的。好了，下面讲一下spark1.3.1是如何安装到集群上去的。

　　1、由于spark的计算框架依赖于scala，因此在安装spark之前，必须安装scala，于是通过网上下载scala-2.10.5.tgz软件包

　　　　（1）解压

　　　　　　 tar -zxvf scala-2.10.5.tgz

　　　　（2）配置环境变量

　　　　　　　　SCALA_HOME=/home/grid/spark/scala-2.10.5

　　　　　　　　path=$path:$SCALA_HOME\bin

　　　　（3）测试安装是否成功

　　　　　　scala -version

　　　　　　或者通过scala shell命令行界面来验证：

　　　　　　输入scala 进入：

　　　　　　输入 8*8 ，可以计算出结果

　　2、安装spark

　　（1）首先从网 http://spark.apache.org/downloads.html 上下载spark-1.3.1-bin-hadoop2.4.tar

　　（2）解压

　　　　　　tar -zxvf spark-1.3.1-bin-hadoop2.4.tar

　　（3）配置环境变量

　　　　SPARK_HOME=/home/grid/spark/spark-1.3.1

　　　　path=$path:$SPARK_HOME/bin

　　（4）修改配置文件

　　　　1）cd 　spark-1.3.1\conf

　　　　2）mv spark-env.sh.template spark-env.sh

　　　　3）vi spark-env.sh

　　　　添加以下内容：

　　　　　　export SCALA_HOME=/home/grid/spark/scala-2.10.5
　　　　　　export JAVA_HOME=/usr/java/jdk-1.7
　　　　　　export SPARK_MASTER_IP=192.168.1.21
　　　　　　export SPARK_WORKER_MEMORY=1024m
　　　　　　export master=spark://192.168.1.21:7070

　　　　4）修改slaves文件

　　　　　　mv slaves.template slaves

　　　　　　vi slaves

　　　　　　添加一下内容：

　　　　　　　　hadoop2

　　　　　　　　hadoop3

　　　　　　　　hadoop4

　　（5）启动spark

　　　　pwd
　　　　/home/grid/spark/spark-1.3.1/sbin
　　　　执行 ./start-all.sh 命令。
　　　　注意，hadoop也有start-all.sh脚本，因此必须进入具体目录执行脚本，启动界面如下：

　　　　对应的关闭spark也是在sbin目录下，执行

　　　　　　./stop-all.sh 即可。

　　（6）验证

　　　　1）在master节点上执行jps

　　　　　　30859 Jps
　　　　　　30172 Master

　　　　2）在slaves节点上执行jps

　　　　　　30302 Worker
　　　　　　30859 Jps

　　（7）验证安装情况
　　　　　　1）运行自带示例

　　　　　　　　进入/spark-1.3.1/bin目录下，执行
　　　　　　　　./run-example org.apache.spark.examples.SparkLR

　　　　　　2）查看集群环境
　　　　　　　　http://hadoop1:8080/

　　　　　　3）进入spark-shell
　　　　　　　　$spark-shell

　　　　　　4）查看jobs等信息
　　　　　　　　http://hadoop1:4040/jobs/

0 0