windows搭建spark开发环境

来源：互联网发布：淘宝客佣金在哪里设置编辑：程序博客网时间：2024/05/20 09:46

一、下载:

1, IDEA

https://download.jetbrains.com/idea/ideaIC-14.1.7.exe

2、java

http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-windows-x64.exe

3、scala

https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.msi

4、maven

http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.zip

5，spark2.0.0-hadoop2.7

http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

6,Hadoop 2.7.3

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

7 anaconda2-4.3.1

https://repo.continuum.io/archive/Anaconda2-4.3.1-Windows-x86_64.exe

二、安装：

全部安装到D盘 DevEnv目录下，安装完如下图：

1、安装JAVA

2、安装scala

3、安装IDEA，anaconda 解压maven spark,hadoop

4、 Asdf

三、配置环境变量

1、配置JAVA_HOME

2、配置HADOOP_HOME

3、配置MAVEN_HOME

4配置SPARK_HOME

5 SCALA_HOME

6，在PATH后面添加

;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin

四、配置IDEA+MAVEN+SAPRK

1、新建MAVEN ,SDK 选择JAVA所在路径，勾选“createfrom archetype”,再选中”scal-…simple”

设置groupID和artfid

这里的seting里面可以设置本地仓库

安装scala插件

“file”-“ setting”-“plugins”-“browseresopo”-

等待maven初始化工程和下载依赖项，第一次花费的时间会比较长，如果配置私有境像就会很快。

配置路径为：

重启，点击auto-enable初始化

右键新建scala类

修改pom文件中的scala版本为2.11.8

在依赖项里面添加spark依赖项

http://mvnrepository.com/artifact/org.apache.spark

选择 spark-core_2.11点进去后，再选择2.0.0

将内容复杂以pom文件中

会看到右下角的读条开始走动，说明已经在仓库下载spark相关依赖项到本地，

编写如下代码

在teminal里输入命令mvnclean install

报错

把src下面和main并列的test目录删掉，重新打包

进入target目录下面，提交JAR包，

报错

去官网下：

https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

放到对应的目录下面，再重新打包，再跑，得到如下结果，说明成功。

如果想直接在IDEA 里面运行程序，则需要做如下两步配置，

1、 conf需要指定master为本地变量

2、 file-project sruct-module-选中当前moudle

3、

再在右边选中

选择加号，再选择jars or dic…，选到SPARK_HOME/jars目录，

等右下角加载完，再运行Run，，，得到如下结果：表示成功！

Python

Python就比较简单，不用打包，直接提交.py就可以跑，

在setting – puglins 里面添加python

下载完后重启IDEA

再new project的时候多了一个python选项

SDK选择之前装的anaconda所在目录

新建test_for_python.py文件，里面输入如下测试代码

这个时候还不能跑，因为依赖的lib还没有加入到python环境下，

将下面的pyspark

复制添加到

再运行，报错：

直接在terminal下面用pip下载py4j(要在连网下)

再run,,,

大功告成~

这已经是第四遍搭这个环境了，第一遍搭的非常辛苦，走了很多弯路，这次是在公司新领笔记本上搭建的，上面啥也没有，完全从0重新开始搭，搭一步写一步，每一步的截图都是真实情况复现，所以到最后肯定是可以成功的。

如何在IDEA 配置git这个后面再整理。

0 0