Spark系列1 Spark 安装

来源:互联网 发布:怎么做淘客软件 编辑:程序博客网 时间:2024/05/16 12:10
一、 Spark安装


环境要求
  • Spark可以在Windows和类Unix系统(例如Linux, Mac OS)上运行。
  • 运行Spark需要系统中先安装Java环境,并设置JAVA_HOME环境变量为Java的安装目录。
  • Spark运行在Java8+,Python2.7+/3.4+ 和R 3.1+。 对于Scala API, Spark 2.2.0 使用Scala 2.11。

安装  
    下载Spark:http://spark.apache.org/downloads.html    直接下载编译好的Spark包即可,如果需要源码编译,下载源码包, 交易教程请戳:http://spark.apache.org/docs/latest/building-spark.html        将下载的压缩包spark-2.2.0-bin-hadoop2.7.tgz解压到某个目录下即可。

二、运行示例和Shell

Spark自带了一些示例程序,包括Scala、Java、Python和R语言的相关示例代码在examples/src/main目录下。如果要运行Scala或Java示例程序,直接在Spark安装根目录下下运行命令 bin/run-exmple <class> [params]即可。例如:

也可以通过Scala Shell运行Spark交互shell,如下:
1
./bin/spark-shell --master local[2]
上例中--master指定分布式集群的master URL,或本地运行的线程数, local[N]即本地运行并且线程数为N。完全的参数李彪,可以运行Spark shell --help查看。

Spark 也提供了一个Python API。使用bin/pyspark可以以Python解释器的方式与Spark交互,如下:

示例程序也提供了python版的,示例:
1
./bin/spark-submit examples/src/main/python/pi.py 10

Spark自1.4版本开始也提供了实验性的R API,以R语言解释器运行Spark交互,如下:

示例代码也包括R语言示例:
1
./bin/spark-submit examples/src/main/r/dataframe.R

三、相关问题

问题1  Spark不能绑定端口
    运行命令./bin/run-example SparkPi 10 报如下错误:
   解决方法:
    将 /spark/conf/spark-env.sh.template 拷贝为spark-env.sh, 并在该文件中添加
1
export  SPARK_MASTER_IP=127.0.0.1
2
export  SPARK_LOCAL_IP=127.0.0.1
    执行 spark-env.sh
原创粉丝点击