Spark

来源：互联网发布：新田县广电网络费用编辑：程序博客网时间：2024/06/16 20:51

Spark 概述

Apache Spark是一种快速和通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持一般执行图的优化引擎。它还支持一系列更高级的工具，包括用于SQL和结构化数据处理的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX和Spark Streaming。

例子运行

在spark的顶级目录下使用bin/run-example [params]来运行一个java或scala示例程序（在这背后，它调用了一个更通用的spark-submit script脚本来启动应用）。例如，

./bin/run-example SparkPi 10

你也可以通过一个Scala shell修改过的版本来交互式运行Spark。这是学习Spark非常好的途径。

./bin/spark-shell --master local[2]

–master选项指定分布式集群的master URL，或local使用一个线程本地运行，或local[N]以N个线程本地运行。您应该首先使用本地进行测试。有关选项的完整列表，请使用–help选项运行Spark shell。

Spark还提供了一个Python API，使用bin/pyspark 可以在Python解释器中交互运行Spark

./bin/pyspark --master local[2]

在Python中也提供了python示例程序。例如，

./bin/spark-submit examples/src/main/python/pi.py 10

Spark自1.4后还提供了一个实验性质的R API（只涵盖了DataFrames APIs）。要在R解释器中交互运行Spark，请使用bin / sparkR：

.bin/sparkR --master local[2]

Spark也提供了R的示例程序。例如，

./bin/spark-submit examples/src/main/r/dataframe.R

在集群上启动

Spark集群模式概述讲解了在集群上运行Spark的关键概念。Spark可以自己运行，也可以运行运行于几个现有的集群管理器。它目前提供了几个部署选项：

Standalone Deploy Mode：在私有集群上部署Spark最简单的方式
Apache Mesos
Hadoop YARN

0 0