Spark安装与测试(Linux系统下)
来源:互联网 发布:ssl端口号 编辑:程序博客网 时间:2024/06/10 13:48
1.Spark运行环境:
Spark是Scala语言写的,运行在JVM上,所以运行环境是Java7+。
如果使用Python API,需要安装Python 2.6+或者Python 3.4+。
Spark 和Scala对应的版本如下:
Spark 1.6.2 – Scala 2.10 Spark 2.0.0 – Scala 2.11
2.Spark下载:
下载地址官网:http://spark.apache.org/downloads.html
搭Spark不需要Hadoop,如有Hadoop集群,可选择相对应的版本
下载方式:
1.可直接下载早本地后put到虚拟机中
2.复制链接到虚拟机里面下载通过以下代码进行下载,速度可能会比较慢。
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.4.tgz
3.解压Spark
tar -zxvf spark-2.0.1-bin-hadoop2.4.tgz
- Spark 目录:
bin包含用来和Spark交互的可执行文件,如Spark shell
core,streaming,python,….包含主要组件的源代码。
examples包含一些单机Spark job,你可以研究和运行这些例子 - 进入 bin目录
cd /bin
- 可以看到如下可执行的文件
- Spark的shell
Spark的shell使你能够处理分布在集群上的数据。
Spark把数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速使迭代式计算,实时查询,分析一般能够在shells中完成。
Spark提供了Python shells 和 Scala shells。
ls
有一个pyspark
./pyspark
Scala shell 同样在bin目录下./spark-shell
4.测试
例子:1.用Scala-shell 读取本地文件并对本地的文件进行操作
创建一个helloSpark 文件并写入以下内容
进入到bin目录下的spark-shell中(速度可能比较慢第一次打开)敲下如下代码
val lines = sc.textFile("../../app/helloSpark")#scala通过val定义一个变量lines,然后通过sc.textFile方法加载本地的一个文件#对lines进行如下操作lines.count()#计算文件的行数lines.first()#返回文件的第一行
2.修改日记级别log4j.rootCategory = WARN,console减少info日记的输出
阅读全文
0 0
- Spark安装与测试(Linux系统下)
- Spark介绍与安装教程(Linux系统)
- Mac下安装Spark开发环境(Linux系统可参照)
- Mac下安装Spark开发环境(Linux系统可参照)
- Mac下安装Spark开发环境(Linux系统可参照)
- Spark编译与部署(下)--Spark编译安装
- Linux下Zookeeper的(单机)安装与简单测试
- linux下libusb的安装与测试
- linux下zookeeper安装与测试
- linux下libusb的安装与测试
- Linux下MySQL安装与测试
- Linux下bochs源码安装与测试
- linux下 Wowza安装与ffmpeg测试
- linux下zookeeper安装与测试
- linux下安装boost与测试
- linux下zookeeper安装与测试
- linux下libusb的安装与测试
- Linux系统下OpenCV2.x的安装与SIFT算法测试
- linux 下 g++编译程序时,-I(大写i) 与-L(大写l)-l(小写l) 的作用
- Vue模板语法(1)
- 树莓派+Arduino 传感器 无刷电调、电机等
- Spark
- ElasticSearch初体验之使用Java进行最基本的增删改查
- Spark安装与测试(Linux系统下)
- Flink的高可用集群环境
- You don't know js
- Spark-机器学习模型持久化
- Haproxy请求量大出现503故障一例
- 无题
- 函数指针的用法
- hdu 5583(贪心)
- Dubbo的使用及原理浅析.