Spark的安装方法

来源：互联网发布：linux ip地址映射编辑：程序博客网时间：2024/06/05 18:51

Spark安装方法（standalone模式）

一、简单认知，什么是Spark？

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，（注：如果不保存将会消失）因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

官网对spark速度介绍：

Speed

Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.也就是说Spark比hadoop快100倍，当然官方拿来测试的例子IO读写操作比较多，这正是Hadoop的不足和Spark基于内存计算的长处。

二、Spark的下载

官网下载地址（http://spark.apache.org/downloads.html）点击箭头指示方向下载

（注：可以在选项一选择Spark的发行版本，选项二中选择下载的包类型，选项三选择下载类型。）

三、Spark的安装

安装前确定你的jdk已经安装过了

把文件上传到你的linux机器上找到该文件

1、解压文件：

tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz

后面的参数根据你下载的文件版本名而定

2、找到conf目录打开

cd spark-1.6.1-bin-hadoop2.6/conf/

3、修改spark的环境变量文件spark-env.sh

vim spark-env.sh

添加以下配置

export JAVA_HOME=/opt/jdk1.8.0_121    export SPARK_MASTER_IP=master    export SPARK_MASTER_PORT=7077    export HADOOP_CONF_DIR=/home/hadoop/software/hadoop-2.7.3

注意：这里的JAVA_HOME为你的java安装目录

SPARK_MASTER_IP为你的master节点的ip地址，可以写hostname前提是你配置了hosts文件中的ip映射

SPARK_MASTER_PORT为端口号

最后一个为你的Hadoop配置目录，可以不写

4、修改slaves文件

在slaves文件中添加作为worker结点的ip地址（可以写hostname前提是你的hosts文件中配置了ip映射），类似于Hadoop配置中的slaves文件

5、分发文件到其他结点

如果你配置了ssh免密码登录的话可以使用命令：

scp -r spark-1.6.1-bin-hadoop2.6/ slave01:~/software/

注意这里slave01为我的worker结点hostname

顺便介绍一下快速配置ssh的命令（ssh-copy-id hostname）

6、测试是否安装成功

使用命令

./sbin/start-all.sh

或者进入spark-1.6.1-bin-hadoop2.6目录下的sbin目录中使用./start-all.sh

完成启动之后jps命令查看master和worker的运行状态

Spark为主从结构，看见worker和master都启动成功，表示安装成功

1 0

linux ip地址映射

原创粉丝点击