Spark

来源:互联网 发布:新田县广电网络费用 编辑:程序博客网 时间:2024/06/16 20:51

Spark 概述

Apache Spark是一种快速和通用的集群计算系统。 它提供Java,Scala,Python和R中的高级API,以及支持一般执行图的优化引擎。 它还支持一系列更高级的工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming。

例子运行

在spark的顶级目录下使用bin/run-example [params]来运行一个java或scala示例程序(在这背后,它调用了一个更通用的spark-submit script脚本来启动应用)。例如,

./bin/run-example SparkPi 10

你也可以通过一个Scala shell修改过的版本来交互式运行Spark。这是学习Spark非常好的途径。

./bin/spark-shell --master local[2]

–master选项指定分布式集群的master URL,或local使用一个线程本地运行,或local[N]以N个线程本地运行。 您应该首先使用本地进行测试。 有关选项的完整列表,请使用–help选项运行Spark shell。

Spark还提供了一个Python API,使用bin/pyspark 可以在Python解释器中交互运行Spark

./bin/pyspark --master local[2]

在Python中也提供了python示例程序。例如,

./bin/spark-submit examples/src/main/python/pi.py 10

Spark自1.4后还提供了一个实验性质的R API(只涵盖了DataFrames APIs)。 要在R解释器中交互运行Spark,请使用bin / sparkR:

.bin/sparkR --master local[2]

Spark也提供了R的示例程序。例如,

./bin/spark-submit examples/src/main/r/dataframe.R

在集群上启动

Spark集群模式概述讲解了在集群上运行Spark的关键概念。Spark可以自己运行,也可以运行运行于几个现有的集群管理器。它目前提供了几个部署选项:

  • Standalone Deploy Mode:在私有集群上部署Spark最简单的方式
  • Apache Mesos
  • Hadoop YARN
0 0
原创粉丝点击