在windows上pycharm配置spark环境

来源：互联网发布：哥特式lolita淘宝编辑：程序博客网时间：2024/06/05 20:32

(1)分别从Hadoop官网和spark官网下载Hadoop和spark的安装包
Hadoop下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common
spark下载地址：
http://spark.apache.org/downloads.html
注意版本要兼容；
（2）把Hadoop和spark的安装包解压，由于他们都是非安装软件，解压就可以了，然后设置环境变量，把路径添加到path中，D:\hadoop-2.6.0\bin；D:\spark-2.2.0-bin-hadoop2.7\bin注意用分号隔开
这里写图片描述
（3）启动pyspark验证
理想情况下是这样的：

可是宝宝的却是这样的：

有个哥们说，原因是这样的：http://blog.csdn.net/helloxiaozhe/article/details/77802865
因为可以出来python的>>>,应该就可以用，我不想关电脑，没有试。
（4）在pycharm中配置开发环境
a、打开pycharm，创建一个progect,设置run configuration
这里写图片描述
在环境变量中添加HADOOP_HOME,SPARK_HOME和PYTHONPATH
b、安装pyspark 和py4j
pyspark安装，在cmd终端中pip install pyspark或者在pycharm的setting中
安装的比较慢，勿骄勿躁。

py4j
Py4j可以使运行于python解释器的python程序动态的访问java虚拟机中的java对象。Java方法可以像java对象就在python解释器里一样被调用，Java collection也可以通过标准python collection方法调用。Py4j也可以使java程序回调python对象。
（5）测试程序

import osimport sys# Path for spark source folderos.environ['SPARK_HOME']="D:\spark-2.2.0-bin-hadoop2.7"# Append pyspark to Python Pathsys.path.append("D:\spark-2.2.0-bin-hadoop2.7\python")try:from pyspark import SparkContextfrom pyspark import SparkConfprint ("Successfully imported Spark Modules")except ImportError as e:print ("Can not import Spark Modules", e)sys.exit(1)

这里写图片描述
这样，就说明环境配置好了啦~

阅读全文

0 0