Spark安装与测试（Linux系统下）

来源：互联网发布：ssl端口号编辑：程序博客网时间：2024/06/10 13:48

1.Spark运行环境：

Spark是Scala语言写的，运行在JVM上，所以运行环境是Java7+。
如果使用Python API，需要安装Python 2.6+或者Python 3.4+。
Spark 和Scala对应的版本如下：
Spark 1.6.2 – Scala 2.10 Spark 2.0.0 – Scala 2.11

2.Spark下载：

下载地址官网：http://spark.apache.org/downloads.html
搭Spark不需要Hadoop,如有Hadoop集群，可选择相对应的版本

这里写图片描述

下载方式：
1.可直接下载早本地后put到虚拟机中
2.复制链接到虚拟机里面下载通过以下代码进行下载，速度可能会比较慢。

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.4.tgz

这里写图片描述

3.解压Spark

tar -zxvf spark-2.0.1-bin-hadoop2.4.tgz

Spark 目录：
bin包含用来和Spark交互的可执行文件，如Spark shell
core,streaming,python,….包含主要组件的源代码。
examples包含一些单机Spark job,你可以研究和运行这些例子
进入 bin目录
cd /bin
可以看到如下可执行的文件
Spark的shell
Spark的shell使你能够处理分布在集群上的数据。
Spark把数据加载到节点的内存中，因此分布式处理可在秒级完成。
快速使迭代式计算，实时查询，分析一般能够在shells中完成。
Spark提供了Python shells 和 Scala shells。

ls

有一个pyspark

 ./pyspark

Scala shell 同样在bin目录下./spark-shell

4.测试

例子：1.用Scala-shell 读取本地文件并对本地的文件进行操作

创建一个helloSpark 文件并写入以下内容

这里写图片描述

进入到bin目录下的spark-shell中（速度可能比较慢第一次打开）敲下如下代码

这里写图片描述

val lines = sc.textFile("../../app/helloSpark")#scala通过val定义一个变量lines，然后通过sc.textFile方法加载本地的一个文件#对lines进行如下操作lines.count()#计算文件的行数lines.first()#返回文件的第一行

这里写代码片

2.修改日记级别log4j.rootCategory = WARN,console减少info日记的输出

这里写图片描述

阅读全文

0 0