Spark的安装方法

来源:互联网 发布:linux ip地址映射 编辑:程序博客网 时间:2024/06/05 18:51

Spark安装方法(standalone模式)

一、简单认知,什么是Spark?

     Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,(注:如果不保存将会消失)因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
官网对spark速度介绍:
Speed
Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.也就是说Spark比hadoop快100倍,当然官方拿来测试的例子IO读写操作比较多,这正是Hadoop的不足和Spark基于内存计算的长处。

二、Spark的下载

官网下载地址(http://spark.apache.org/downloads.html)点击箭头指示方向下载
(注:可以在选项一选择Spark的发行版本,选项二中选择下载的包类型,选项三选择下载类型。)

三、Spark的安装

安装前确定你的jdk已经安装过了
把文件上传到你的linux机器上找到该文件
1、解压文件:
tar -zxvf spark-1.6.1-bin-hadoop2.6.tar.gz
后面的参数根据你下载的文件版本名而定
2、找到conf目录打开
cd spark-1.6.1-bin-hadoop2.6/conf/
3、修改spark的环境变量文件spark-env.sh
vim spark-env.sh
添加以下配置
export JAVA_HOME=/opt/jdk1.8.0_121    export SPARK_MASTER_IP=master    export SPARK_MASTER_PORT=7077    export HADOOP_CONF_DIR=/home/hadoop/software/hadoop-2.7.3
注意:这里的JAVA_HOME为你的java安装目录
SPARK_MASTER_IP为你的master节点的ip地址,可以写hostname前提是你配置了hosts文件中的ip映射
SPARK_MASTER_PORT为端口号
最后一个为你的Hadoop配置目录,可以不写
4、修改slaves文件
在slaves文件中添加作为worker结点的ip地址(可以写hostname前提是你的hosts文件中配置了ip映射),类似于Hadoop配置中的slaves文件
5、分发文件到其他结点
如果你配置了ssh免密码登录的话可以使用命令:
scp -r spark-1.6.1-bin-hadoop2.6/ slave01:~/software/
注意这里slave01为我的worker结点hostname
顺便介绍一下快速配置ssh的命令(ssh-copy-id hostname)
6、测试是否安装成功
使用命令
./sbin/start-all.sh 
或者进入spark-1.6.1-bin-hadoop2.6目录下的sbin目录中使用./start-all.sh
完成启动之后jps命令查看master和worker的运行状态

Spark为主从结构,看见worker和master都启动成功,表示安装成功














1 0
原创粉丝点击