Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
来源:互联网 发布:下列不是数据库管理软 编辑:程序博客网 时间:2024/05/29 12:35
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
1、首先安装Java 、Scala,然后下载spark-2.1.0-bin-hadoop2.7.tar.gz和hadoop-2.7.3.tar.gz并解压
2、分别在环境变量中添加JAVA_HOME、HADOOP_HOME、SPARK_HOME(scala在安装时会自动配置环境变量,所以在此不用考虑),截图如下:
3、配置好环境变量以后,需要下载Hadoop的hadoop.dll和winutils.exe.zip(我这里以Hadoop 2.7.3为例)(参考链接:http://download.csdn.net/detail/chenxf10/9621093),把下载之后的bin目录下的文件复制到E:\hadoop-2.7.3\bin。
4、之后就可以在IDEA中运行成功一个简单的SparkPi程序了。如图:
(1)、现在IDEA中安装scala和Python:
(2)、新建一个scala工程(或者Python工程),以scala为例:
新建工程目录如下:
(3)导入jar包,并设置本地local运行模式
(4)然后在spark-2.1.0-bin-hadoop2.7.tar.gz解压包的目录下的examples下面scala的SparkPi.scala这个实例代码运行:
整个windows下就运行完成了。
注:在windows 下Pycharm + Spark + PySpark运行,步骤如下:
前面环境变量已完成,只需要以下几个步骤:
(1)、首先把E:\spark-2.1.0-bin-hadoop2.7\python目录下的pyspark文件夹复制到python安装目录(我以我自己的为主,具体按照自己安装目录来)E:\Anaconda2\Lib\site-packages下面。
(2)、之后新建一个SparkPython工程,然后在Pycharm中加入如下配置文件(注意:在IDEA中也需要把spark-2.1.0-bin-hadoop2.7目录下的jar包导入)如图所示:
(3)、接着运行spark-2.1.0-bin-hadoop2.7下面的Python实例代码(还是以SparkPi为例):
运行可能还是会报错,如果报一下错误,No module named py4j.protocol
,则只需要启动cmd,然后使用pip install py4j,在运行就成功了。
总结:以上就是整个windows上面搭建Spark的过程,分别使用Python和Scala运行Spark成功。因在Linux上搭建的集群,远程使用idea编程程序多有不便,故可现在windows上面单机本地调试,没问题再提交到集群运行。
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- scala编写的Spark程序远程提交到服务器集群上运行
- IDEA上Spark——Java、Scala的本地测试版与集群运行版
- 本地Spark程序提交到hadoop集群运行流程
- spark学习7之IDEA下搭建Spark本地编译环境并上传到集群运行
- 本地windows跑Scala程序调用Spark
- windows下搭建Spark,Pycharm配置Spark测试
- eclipse远程提交scala到spark集群问题
- spark测试集群搭建
- 使用IDEA编写基于Scala的spark程序中的常见问题
- spark入门实战windows本地测试程序
- pycharm上写spark程序
- 本地windows跑Python程序调用Spark
- 使用Idea提交Spark程序
- Linux搭建spark集群
- Spark集群模式&Spark程序提交
- 从windows上提交代码到spark集群发现driver地址不通
- windows搭建spark运行环境(windows scala,hadoop,spark安装,idea使用配置等)
- 探究数据内型中每个字节的存储内容和字节顺序
- c++中引用和指针的区别
- eclipse中怎么去掉Js/javsscript报错信息
- vi编辑指令
- Java 匿名函数、构造方法、构造代码块、方法重载与方法重写
- Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
- 碎片(Fragment)--《第一行代码Android》笔记
- cos和sin的使用
- Linux安装Oracle报错You are attempting to install 64-bit Oracle on a 32-bit operating system. This
- 图像的二值化
- 查找数组中指定元素
- 排序:选择排序(算法)
- 用多线程模拟5000人抢1000张票, 测试volatile, synchronized, vector的效用
- Redis高级特性及应用场景