Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序，测试通过后再提交到Linux集群上

来源：互联网发布：下列不是数据库管理软编辑：程序博客网时间：2024/05/29 12:35

Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序，测试通过后再提交到Linux集群上

1、首先安装Java 、Scala，然后下载spark-2.1.0-bin-hadoop2.7.tar.gz和hadoop-2.7.3.tar.gz并解压
2、分别在环境变量中添加JAVA_HOME、HADOOP_HOME、SPARK_HOME（scala在安装时会自动配置环境变量，所以在此不用考虑），截图如下：
这里写图片描述

3、配置好环境变量以后，需要下载Hadoop的hadoop.dll和winutils.exe.zip（我这里以Hadoop 2.7.3为例）（参考链接：http://download.csdn.net/detail/chenxf10/9621093），把下载之后的bin目录下的文件复制到E:\hadoop-2.7.3\bin。

4、之后就可以在IDEA中运行成功一个简单的SparkPi程序了。如图：
（1）、现在IDEA中安装scala和Python：
这里写图片描述

（2）、新建一个scala工程（或者Python工程），以scala为例：
这里写图片描述
新建工程目录如下：

（3）导入jar包，并设置本地local运行模式
这里写图片描述

（4）然后在spark-2.1.0-bin-hadoop2.7.tar.gz解压包的目录下的examples下面scala的SparkPi.scala这个实例代码运行：
这里写图片描述

整个windows下就运行完成了。

注：在windows 下Pycharm + Spark + PySpark运行，步骤如下：
前面环境变量已完成，只需要以下几个步骤：
（1）、首先把E:\spark-2.1.0-bin-hadoop2.7\python目录下的pyspark文件夹复制到python安装目录（我以我自己的为主，具体按照自己安装目录来）E:\Anaconda2\Lib\site-packages下面。
（2）、之后新建一个SparkPython工程，然后在Pycharm中加入如下配置文件（注意：在IDEA中也需要把spark-2.1.0-bin-hadoop2.7目录下的jar包导入）如图所示：
这里写图片描述

（3）、接着运行spark-2.1.0-bin-hadoop2.7下面的Python实例代码（还是以SparkPi为例）：
这里写图片描述

运行可能还是会报错，如果报一下错误，No module named py4j.protocol，则只需要启动cmd，然后使用pip install py4j，在运行就成功了。
这里写图片描述

总结：以上就是整个windows上面搭建Spark的过程，分别使用Python和Scala运行Spark成功。因在Linux上搭建的集群，远程使用idea编程程序多有不便，故可现在windows上面单机本地调试，没问题再提交到集群运行。

阅读全文

1 0