windows搭建spark开发环境

来源:互联网 发布:淘宝客佣金在哪里设置 编辑:程序博客网 时间:2024/05/20 09:46

一、下载:

1, IDEA                                                     

https://download.jetbrains.com/idea/ideaIC-14.1.7.exe

2、java

http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-windows-x64.exe

 

 

3、scala

https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.msi

 

4、maven

http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.zip

 

5,spark2.0.0-hadoop2.7

http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz

 

6,Hadoop 2.7.3

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

 

7 anaconda2-4.3.1

https://repo.continuum.io/archive/Anaconda2-4.3.1-Windows-x86_64.exe

 

 

二、安装:

全部安装到D盘 DevEnv目录下,安装完如下图:

1、  安装JAVA

2、  安装scala

3、  安装IDEA,anaconda 解压maven spark,hadoop

 

4、  Asdf

 

 

三、配置环境变量

1、配置JAVA_HOME

 

2、配置HADOOP_HOME

3、配置MAVEN_HOME

4配置SPARK_HOME

 

5 SCALA_HOME

 

 

 

 

6,在PATH后面添加

;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin

 

 

 

四、配置IDEA+MAVEN+SAPRK

 

1、新建MAVEN ,SDK 选择JAVA所在路径,勾选“createfrom archetype”,再选中”scal-…simple”

 

                        

 

 

 

设置groupID和artfid

 

这里的seting里面可以设置本地仓库

 

安装scala插件

“file”-“ setting”-“plugins”-“browseresopo”-

 

 

 

等待maven初始化工程和下载依赖项,第一次花费的时间会比较长,如果配置私有境像就会很快。

 

配置路径为:

 

 

 

 

 

 

 

 

重启,点击auto-enable初始化

 

右键新建scala类

 

 

修改pom文件中的scala版本为2.11.8

 

在依赖项里面添加spark依赖项

 

http://mvnrepository.com/artifact/org.apache.spark

 

选择  spark-core_2.11点进去后,再选择2.0.0

 

将内容复杂以pom文件中

                                                             

会看到右下角的读条开始走动,说明已经在仓库下载spark相关依赖项到本地,

 

编写如下代码

 

在teminal里输入命令mvnclean install

 

报错

把src下面和main并列的test目录删掉,重新打包

 

进入target目录下面,提交JAR包,

 

报错

去官网下:

https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

放到对应的目录下面,再重新打包,再跑,得到如下结果,说明成功。

 

如果想直接在IDEA 里面运行程序,则需要做如下两步配置,

1、  conf需要指定master为本地变量

 

 

2、  file-project sruct-module-选中当前moudle

3、 

再在右边选中

 

选择加号,再选择jars or dic…,选到SPARK_HOME/jars目录,

 

等右下角加载完,再运行Run,,,得到如下结果:表示成功!

 

 

 

Python

 

Python就比较简单,不用打包,直接提交.py就可以跑,

 

在setting – puglins 里面添加python

                                                                                                      

下载完后重启IDEA

再new project的时候多了一个python选项

 

SDK选择之前装的anaconda所在目录

 

 

 

新建test_for_python.py文件,里面输入如下测试代码

 

这个时候还不能跑,因为依赖的lib还没有加入到python环境下,

 

将下面的pyspark

 

复制添加到

 

再运行,报错:

 

直接在terminal下面用pip下载py4j(要在连网下)

 

 

再run,,,

 

大功告成~

 

 

这已经是第四遍搭这个环境了,第一遍搭的非常辛苦,走了很多弯路,这次是在公司新领笔记本上搭建的,上面啥也没有,完全从0重新开始搭,搭一步写一步,每一步的截图都是真实情况复现,所以到最后肯定是可以成功的。

 

 

 

如何在IDEA 配置git这个后面再整理。


0 0