在windows上pycharm配置spark环境

来源:互联网 发布:哥特式lolita淘宝 编辑:程序博客网 时间:2024/06/05 20:32

(1)分别从Hadoop官网和spark官网下载Hadoop和spark的安装包
Hadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common
spark下载地址:
http://spark.apache.org/downloads.html
注意版本要兼容;
(2)把Hadoop和spark的安装包解压,由于他们都是非安装软件,解压就可以了,然后设置环境变量,把路径添加到path中,D:\hadoop-2.6.0\bin;D:\spark-2.2.0-bin-hadoop2.7\bin注意用分号隔开
这里写图片描述
(3)启动pyspark验证
理想情况下是这样的:
这里写图片描述
可是宝宝的却是这样的:
这里写图片描述
有个哥们说,原因是这样的:http://blog.csdn.net/helloxiaozhe/article/details/77802865
因为可以出来python的>>>,应该就可以用,我不想关电脑,没有试。
(4)在pycharm中配置开发环境
a、打开pycharm,创建一个progect,设置run configuration
这里写图片描述
在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH
b、安装pyspark 和py4j
pyspark安装,在cmd终端中pip install pyspark或者在pycharm的setting中这里写图片描述
安装的比较慢,勿骄勿躁。

py4j
Py4j可以使运行于python解释器的python程序动态的访问java虚拟机中的java对象。Java方法可以像java对象就在python解释器里一样被调用,Java collection也可以通过标准python collection方法调用。Py4j也可以使java程序回调python对象。
(5)测试程序

import osimport sys# Path for spark source folderos.environ['SPARK_HOME']="D:\spark-2.2.0-bin-hadoop2.7"# Append pyspark to Python Pathsys.path.append("D:\spark-2.2.0-bin-hadoop2.7\python")try:from pyspark import SparkContextfrom pyspark import SparkConfprint ("Successfully imported Spark Modules")except ImportError as e:print ("Can not import Spark Modules", e)sys.exit(1)

这里写图片描述
这样,就说明环境配置好了啦~