windows搭建spark开发环境
来源:互联网 发布:淘宝客佣金在哪里设置 编辑:程序博客网 时间:2024/05/20 09:46
一、下载:
1, IDEA
https://download.jetbrains.com/idea/ideaIC-14.1.7.exe
2、java
http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-windows-x64.exe
3、scala
https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.msi
4、maven
http://ftp.cuhk.edu.hk/pub/packages/apache.org/maven/maven-3/3.5.0/binaries/apache-maven-3.5.0-bin.zip
5,spark2.0.0-hadoop2.7
http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz
6,Hadoop 2.7.3
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
7 anaconda2-4.3.1
https://repo.continuum.io/archive/Anaconda2-4.3.1-Windows-x86_64.exe
二、安装:
全部安装到D盘 DevEnv目录下,安装完如下图:
1、 安装JAVA
2、 安装scala
3、 安装IDEA,anaconda 解压maven spark,hadoop
4、 Asdf
三、配置环境变量
1、配置JAVA_HOME
2、配置HADOOP_HOME
3、配置MAVEN_HOME
4配置SPARK_HOME
5 SCALA_HOME
6,在PATH后面添加
;%JAVA_HOME%\bin;%SCALA_HOME%\bin;%MAVEN_HOME%\bin;%SPARK_HOME%\bin
四、配置IDEA+MAVEN+SAPRK
1、新建MAVEN ,SDK 选择JAVA所在路径,勾选“createfrom archetype”,再选中”scal-…simple”
设置groupID和artfid
这里的seting里面可以设置本地仓库
安装scala插件
“file”-“ setting”-“plugins”-“browseresopo”-
等待maven初始化工程和下载依赖项,第一次花费的时间会比较长,如果配置私有境像就会很快。
配置路径为:
重启,点击auto-enable初始化
右键新建scala类
修改pom文件中的scala版本为2.11.8
在依赖项里面添加spark依赖项
http://mvnrepository.com/artifact/org.apache.spark
选择 spark-core_2.11点进去后,再选择2.0.0
将内容复杂以pom文件中
会看到右下角的读条开始走动,说明已经在仓库下载spark相关依赖项到本地,
编写如下代码
在teminal里输入命令mvnclean install
报错
把src下面和main并列的test目录删掉,重新打包
进入target目录下面,提交JAR包,
报错
去官网下:
https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin
放到对应的目录下面,再重新打包,再跑,得到如下结果,说明成功。
如果想直接在IDEA 里面运行程序,则需要做如下两步配置,
1、 conf需要指定master为本地变量
2、 file-project sruct-module-选中当前moudle
3、
再在右边选中
选择加号,再选择jars or dic…,选到SPARK_HOME/jars目录,
等右下角加载完,再运行Run,,,得到如下结果:表示成功!
Python
Python就比较简单,不用打包,直接提交.py就可以跑,
在setting – puglins 里面添加python
下载完后重启IDEA
再new project的时候多了一个python选项
SDK选择之前装的anaconda所在目录
新建test_for_python.py文件,里面输入如下测试代码
这个时候还不能跑,因为依赖的lib还没有加入到python环境下,
将下面的pyspark
复制添加到
再运行,报错:
直接在terminal下面用pip下载py4j(要在连网下)
再run,,,
大功告成~
这已经是第四遍搭这个环境了,第一遍搭的非常辛苦,走了很多弯路,这次是在公司新领笔记本上搭建的,上面啥也没有,完全从0重新开始搭,搭一步写一步,每一步的截图都是真实情况复现,所以到最后肯定是可以成功的。
如何在IDEA 配置git这个后面再整理。
- Spark Windows开发环境搭建
- windows搭建spark开发环境
- spark的windows开发环境搭建
- Windows下搭建Spark+Hadoop开发环境
- Windows系统中搭建Spark开发环境
- Spark环境搭建-windows
- spark windows环境下开发环境快速搭建。
- Spark开发-spark环境搭建
- spark 开发环境搭建
- 搭建spark开发环境
- 搭建spark开发环境
- Spark开发环境搭建
- Spark开发环境搭建
- spark开发环境搭建
- spark开发环境搭建
- Spark开发环境搭建
- Windows下基于eclipse的Spark应用开发环境搭建
- windows环境下搭建spark
- Tomcat搭建文件服务器
- 第一章 数据的概念
- 杭电 2011 多项式求和
- LeetCode之Sqrt(x)
- marchine learning 余弦相似度计算
- windows搭建spark开发环境
- marchine learning 之 皮尔逊相关系数
- Kibana Timelion Supports Percentiles
- LevelDB读写流程(具体例子讲解SkipList+LSM)
- 欢迎使用CSDN-markdown编辑器
- marchine learning 之 ManhattanDistance
- 鸟哥的linux学习笔记
- 算法练习笔记(八)—— 寻找最大路径树
- js中的事件触发(非常详细)