spark的安装及测试

来源：互联网发布：网络维保服务编辑：程序博客网时间：2024/06/14 15:57

Spark 会用到 HDFS 与 YARN，因此请先安装Hadoop，安装haoop见以前的文档

下载对应你hadoop版本的spark包，上传解压

授权：

sudo chown -R hadoop:hadoop ./spark位置

环境配置：vim /etc/profile 将spark的位置配置进去

export SPARK_HOME=/data/spark-1.5.2-bin-hadoop2.6
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/sbin

使生效，特别注意是sbin不是bin

source /etc/profile

配置conf/slaves

修改cp conf/slaves.template conf/slaves

在slaves里面添加spark要部署的位置

vim conf/slaves 加入slave配置节点

master
slave01
slave02

进入spark里面修改文件文件conf/spark-env.sh.template的文件名为spark-env.sh

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

修改这个文件vim spark-env.sh

加入Spark环境配置内容，设置192.168.32.129（master）为Master节点

export SPARK_MASTER_IP=master

将配置好的spark分发到各个节点（slave01和slave02），hadoop为不需要输入密码那个用户

$scp -r spark名 hadoop@slave01:spark放置位置

$scp -r spark名hadoop@slave02:spark放置位置

Spark的测试

先启动hadoop

Sbin/start-all.sh

在启动spark

Sbin/start-all.sh

可以看一下是否都启动起来了

去各个节点看jps里面是否有

主节点：Worker和Master启动

其他的节点work应该启动了：

在就是用浏览器打开看

ip：8080：是spark集群的界面

启动测试:

Spark shell 是spark自带的一个快速原型开发的工具，在spark目录下面的bin目录下面

在spark shell中做测试：

bin/spark-shell

启动后会有scala的命令符：

界面 IP：4040界面sparkweb ui的界面

可以用命令进行测试了：scala的基本命令在其他的文章中有介绍;

选择一个文件上传到hdfs

进行下spark的测试：

如果hdfs里面有文件直接用，如果没有，要加进去

eg1:

eg2:简单的几个比较特别的用法

toDebugString用于展示操作过程

eg3:排序，换位置：

在idea中写scala的jar

在IDEA\eclipse\myeclipse 中直接运行或者打成jar运行

可以参考文档

http://www.cnblogs.com/shishanyuan/p/4721120.html

0 0