spark-2.1.0

来源：互联网发布：gs2107用哪种编程软件编辑：程序博客网时间：2024/06/11 21:37

一、安装scala
spark 官方对配套的Scala版本有规定，要根据具体的spark的版本决定Scala的版本。
1.官方下载地址：http://www.scala-lang.org/download
2.解压到要安装的位置，我就解压在了桌面。
3.修改环境变量。
终端命令

sudo gedit ~/.bashrc修改:#scalaexport SCALA_HOME=/home/hadoop/scala-2.11.8   (scala的绝对路径)export PATH=$SCALA_HOME/bin:$PATHsource ~/.bashrc

4.查看 scala -version
5 .输入scala就可以进入scala的命令交互界面
6.slave端同样设置就可以

二、安装Spark
先在master配置。配置完成后复制到salves中即可

1.下载安装包 http://spark.apache.org/downloads.html
解压到自己安装的位置，我也解压到了桌面
2.配置环境变量

sudo gedit ~/.bashrc修改:#scala#sparkexport SPARK_HOME=/home/hadoop/spark-2.1.0(spark的绝对路径)export PATH=$SPARK_HOME/bin:$PATHsource ~/.bashrc

3.配置Spark。需要配置spark文件下的conf文件夹下spark-env.sh和slaves文件

首先需要把spark-env.sh.template和slaves template 都复制成spark-env.sh和slaves

cd spark-2.1.0/conf//复制cp  spark-env.sh.template spark-env.sh  cp  slave.template slave.sh  //修改spark-env.sh gedit spark-env.sh //写入export SCALA_HOME=/home/hadoop/scala-2.11.8     export JAVA_HOME=/usr/lib/jvm/javajdk1.8export HADOOP_HOME=/home/hadoop/hadoop2.7export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopSPARK_MASTER_IP=masterSPARK_LOCAL_DIRS=/home/hadoop/spark-2.1.0SPARK_DRIVER_MEMORY=1Gexport  SPARK_WORKER_CORES=1export   SPARK_WORKER_INSTANCES=1

JAVA_HOME 指的是java的安装目录
SCALA_HOME是scala的安装目录
HADOOP_HOME是hadoop的安装目录
SPARK_MASTER_IP spark的master节点的ip
SPARK_DRIVER_MEMORY 指的是每个slave节点能够最大的分配给exectors的内存大小
SPARK_WORKER_CORES=1 指的每个slave节点所占有的cpu核数目
export SPARK_WORKER_INSTANCES=1 每台机器上开启的worker 节点数目

修改slavegedit slave.sh添加节点名称1节点名称2

4.slave中由master复制过去，spark文件夹和bashrc文件
5.启动并测试

//启动hadoopcd hadoop2.7/sbin./start-all.sh//启动sparkcd spark-2.1.0/sbin./start-all.sh//查查看jpsmaster端：namenodesalve端：datanode //启动spark-shell控制台cd spark-2.1.0/binspark-shell//有park字样

浏览器查看

spark的webUI页面 master:8080
了解spark shell
master:4040

三、测试
（1）启动spark shell
(2) 进入spark/bin目录下

./run-example org.apache.spark.examples.LocalPi //运行出3.13...

测试二

1.往hdfs上传文件在hadoop hdfs 上创建文件夹datacd hadoopbin/hdfs   dfs-mkdir  /data//查看浏览器  master:500702.上传文件到data文件夹bin/hdfs dfs -put {需要上传的文件路径} 空格  {/data}             -put /home/spark/README.md  /data

3.对README.md文件进行操作

启动 spark shellcd  spark/binspark-shell//获取文件scala >   val rdd=sc.textFile("/data/README.md")scala >   rdd.count

0 0