spark安装和集群单机模式

来源:互联网 发布:巧克力囊肿 知乎 编辑:程序博客网 时间:2024/05/05 19:32

我安装吃了很大的亏,首先应该先去看人家官方介绍,就算看不太懂,也可以慢慢看

1、单机安装 只需要 JDK

然后去官网下载压缩包,不区分window和linux。解压后就安装完成了(可以了,然后配置下环境变量。验证可以执行%SPARK_HOME%/bin下面的spark-shell脚本,会出现scala的命令行,表明安装成功。

如果需要配合python,则需要安装python,配合R使用,需先安装R语言环境,配合scala需要安装scala的环境。都不是必须的,除了jdk,应为他编译需要在jvm中。

2、它的集群方式大致两种,1是搭建在别的集群上的,例如hadoop,mesos,yarn上,2是单机集群(这里只说最简单的单机集群)其实spark不需要安装的,就是一个文件,想在多台电脑运行,复制过去就行,集群的话,需要改变spark安装目录下面conf文件夹下的配置文件。

1,需要改变的文件,spark-env.sh文件 加入export SPARK_MASTER_HOST=你的master的地址(不推荐127.0.0.1写法)
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORDER_INSTANCES=1
export SPARK_WORKER_MEMORY=300m

这几行

2,修改slave文件里面加入你需要的从的地址(主机名或ip)

3,将改完以后的spark文件复制到你第二步骤的那几个电脑上。

4,然后启动sbin/start-all.sh就可以启动所有集群中的spark服务了(使用stop-all.sh停止)

我写的没有那么华丽,但是是自己总结出来最简单的配置方式。


0 0