windows下 pycharm开发spark
来源:互联网 发布:方舟2017优化好了吗 编辑:程序博客网 时间:2024/05/21 09:39
解压下载的文件,假设解压 目录为:D:\spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6
1.3 hadoop相关包的安装
spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
去下载hadoop 2.6编译好的包https://www.barik.net/archive/2015/01/19/172716/,我下载的是hadoop-2.6.0.tar.gz,解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0。同时去github上下载一个叫做 winutils 的组件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果没有hadoop对应的版本(此时版本是 2.6),则去csdn上下载 http://download.csdn.net/detail/luoyepiaoxin/8860033,
我的做法是把CSDN这个压缩包里的所有文件都复制到 hadoop_home的bin目录下
二 python环境
Spark提供了2个交互式shell, 一个是pyspark(基于python), 一个是spark_shell(基于scala). 这两个环境其实是并列的, 并没有相互依赖关系, 所以如果仅仅是使用pyspark交互环境, 而不使用spark-shell的话, 甚至连scala都不需要安装.
2.1 下载并安装Anaconda
anaconda是一个集成了python解释器和大多数python库的系统,安装anaconda 后可以不用再安装python和pandas numpy等这些组件了。下载地址是 https://www.continuum.io/downloads。将python加到path环境变量中
三 启动pyspark验证
在windows下命令行中启动pyspark,如图:
四 在pycharm中配置开发环境
4.1 配置Pycharm
打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”
SPARK_HOME:Spark安装目录
PYTHONPATH:Spark安装目录下的Python目录
4.2 测试程序
先测试环境是否正确,代码如下:
import os
import sys
# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"
# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")
try:
from pyspark import SparkContext
from pyspark import SparkConf
print ("Successfully imported Spark Modules")
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)
测试程序代码来源于 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8
- windows下 pycharm开发spark
- windows下搭建Spark,Pycharm配置Spark测试
- Pycharm+Spark开发配置
- Pycharm开发spark程序
- Spark+Python+Pycharm在Windows下的配置
- windows下使用pycharm进行python3开发
- Windows下Django+pycharm开发环境搭建
- Windows+Pycharm+Spark环境配置
- PyCharm配置Spark开发环境
- windows 下pycharm远程linux开发和调试代码
- Windows下Python开发环境搭建及Pycharm安装
- Windows下单机安装Spark开发环境
- Windows下单机安装Spark开发环境
- windows下spark开发环境配置
- windows下spark开发环境配置
- Windows下单机安装Spark开发环境
- Windows下单机安装Spark开发环境
- Windows下用IDEA进行Spark开发
- CodeForces 657B Bear and Polynomials
- CodeForces 629D Babaei and Birthday Cake(树状数组+离散化)
- HDU 1598 find the most comfortable road (最小生成树)
- TortoiseSVN 日常操作指南
- java 练习-接收键盘输入的数据并输出
- windows下 pycharm开发spark
- Java多线程与并发(三)之死锁
- struts2 中,如何覆盖默认的复杂格式的错误消息
- 开源许可证GPL、BSD、MIT、Mozilla、Apache和LGPL的区别
- 树——二叉树层序遍历的不同方法
- iBatis batch处理那些事
- 升级Mac自带svn版本
- 'Add.jsp' 新建文件(夹)
- c++之多态性(动态绑定)