Spark安装与测试(Linux系统下)

来源:互联网 发布:ssl端口号 编辑:程序博客网 时间:2024/06/10 13:48

1.Spark运行环境:

Spark是Scala语言写的,运行在JVM上,所以运行环境是Java7+。
如果使用Python API,需要安装Python 2.6+或者Python 3.4+。
Spark 和Scala对应的版本如下:
Spark 1.6.2 – Scala 2.10 Spark 2.0.0 – Scala 2.11

2.Spark下载:

下载地址官网:http://spark.apache.org/downloads.html
搭Spark不需要Hadoop,如有Hadoop集群,可选择相对应的版本

这里写图片描述

下载方式:
1.可直接下载早本地后put到虚拟机中
2.复制链接到虚拟机里面下载通过以下代码进行下载,速度可能会比较慢。

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.4.tgz

这里写图片描述

3.解压Spark

tar -zxvf spark-2.0.1-bin-hadoop2.4.tgz
  1. Spark 目录:
    bin包含用来和Spark交互的可执行文件,如Spark shell
    core,streaming,python,….包含主要组件的源代码。
    examples包含一些单机Spark job,你可以研究和运行这些例子
  2. 进入 bin目录
    cd /bin
  3. 可以看到如下可执行的文件
    这里写图片描述
  4. Spark的shell
    Spark的shell使你能够处理分布在集群上的数据。
    Spark把数据加载到节点的内存中,因此分布式处理可在秒级完成。
    快速使迭代式计算,实时查询,分析一般能够在shells中完成。
    Spark提供了Python shells 和 Scala shells。
ls

有一个pyspark

 ./pyspark

Scala shell 同样在bin目录下./spark-shell

4.测试

例子:1.用Scala-shell 读取本地文件并对本地的文件进行操作

创建一个helloSpark 文件并写入以下内容

这里写图片描述

进入到bin目录下的spark-shell中(速度可能比较慢第一次打开)敲下如下代码

这里写图片描述

val lines = sc.textFile("../../app/helloSpark")#scala通过val定义一个变量lines,然后通过sc.textFile方法加载本地的一个文件#对lines进行如下操作lines.count()#计算文件的行数lines.first()#返回文件的第一行

这里写代码片

2.修改日记级别log4j.rootCategory = WARN,console减少info日记的输出

这里写图片描述