Spark的安装

来源：互联网发布：图片识别字体软件编辑：程序博客网时间：2024/06/05 20:52

1.安装JDK与Scala

1.下载JDK：sudo apt-get install openjdk-7-jre-headless。

2.下载Scala： http://www.scala-lang.org/。

3.解压缩：tar –zxvf scala-2.10.6.tgz，进入sudo vim /etc/profile在下面添加路径：

PATH=$PATH:${SCALA_HOME}/bin

使修改生效source /etc/profile。在命令行输入scala测试。

2.安装Spark

1.下载Spark： http://spark.apache.org/downloads.html

2.解压缩： tar –zxvf spark-2.1.0-bin-hadoop2.7.tgz进入conf文件夹，copy spark-env.sh.template并重新命名为spark-env.sh，如下图：

3.在文件添加配置如下：

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_91.jdk/Contents/Homeexport SCALA_HOME=/Users/eleme/Documents/ProgramFiles/scala-2.11.8export SPARK_MASTER_IP=localhostexport SPARK_WORKER_MEMORY=4G

4.进入sudo vim /etc/profile在下面添加路径：

SPARK_HOME=/home/spark/spark-lectures/spark-1.5.1-bin-hadoop2.6 （解压后的包所在的路径）PATH=$PATH:${SPARK_HOME}/bin

3.启动

1.进入目录，在命令行输入：sbin/start-all.sh

2.在命令行输入：spark-shell（可在安装目录中bin里面找到）

4.测试

4.1浏览器测试

在浏览器输入http://localhost:4040/jobs/

4.2样例测试

进入bin目录，输入./run-example SparkPi 10(迭代次数) 计算π的值

bin目录：

5.Wordcount示例

1.在命令行输入：spark-shell开启spark（Scala）

2.在examples文件夹下新建文件spark-demo.txt

3.把输入文件加载进RDD：

//val textFile = sc.textFile("YOUR_INPUT_FILE")val textFile = sc.textFile("examples/spark-demo.txt")

4.MapReduce操作，以work为key，1为value：

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

5.查看每个单词出现的次数

wordCounts.collect()

6.结果如下：

0 0