windows下搭建Spark,Pycharm配置Spark测试

来源:互联网 发布:60级魔兽数据库 编辑:程序博客网 时间:2024/05/21 18:37

windows下搭建Spark需要分3步:JDK、Spark、Hadoop的安装及配置
(一)JDK的安装及环境配置
JDK下载地址:JDK下载
点一下accept License Agreement出现下面的图片,然后选择合适的版本下载。
根据自己的电脑选择合适的版本下载
JDK的安装十分简单,这里不予赘述。安装结束后需要进行环境变量配置:

右击我的电脑-属性-高级系统设置-环境变量
这里写图片描述

添加JAVA_HOME变量和CLASSPATH变量:
这里写图片描述
变量名:JAVA_HOME 变量值:JDK的安装目录
我电脑上是C:\Program Files\Java\jdk1.8.0_151

这里写图片描述
变量名:CLASSPATH
变量值%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

在path中添加路径:
这里写图片描述
变量值:上一步中所安装的JDK目录下的bin文件夹路径名,我这里是:
C:\Program Files\Java\jdk1.8.0_151\bin;路径之间用分号;隔开

全部设置好之后,打开cmd(win+R),输入:java -version。如果能够输出java的版本信息(如下图),说明JDK配置正确。
这里写图片描述

(二)Spark的安装及环境配置
Spark下载:Spark下载
我这里选择的版本是:spark-1.6.0-bin-hadoop2.6.tgz
这里写图片描述

Spark的环境变量配置:
这里写图片描述
变量名:SPARK_HOME 变量值:Spark的安装目录,我这里是I:\spark

添加path路径:I:\spark\bin;I:\spark\sbin;
这里写图片描述

(三)Hadoop的安装及环境配置
Hadoop下载:Hadoop下载
这里写图片描述
下载后解压即可。
由于版本问题需要替换解压后的bin文件中的winutils.exe。替换文件下载:winutils.exe下载
下载之后将该文件复制到hadoop\bin文件里,替换掉原来的winutils.exe。

添加环境变量HADOOP_HOME:
这里写图片描述
变量名:HADOOP_HOME 变量值:hadoop文件的安装目录

添加path路径:我这里是I:\hadoop\bin
这里写图片描述

(四)Python的下载安装
由于spark不支持python3.6,所以我下载的是python3.5
python3.5下载:python下载
选择合适的python下载安装(过程略,可自行百度)

以上步骤全部完成之后,打开cmd(win+R)输入:pyspark。出现下图则说明spark安装成功。
这里写图片描述

(五)Pycharm配置Spark
Pycharm的下载:Pycharm下载
安装过程这边不予赘述,请自行百度。

Pycharm安装结束后,配置Spark。可参考这篇博文:Pycharm配置Spark

配置结束后可通过一个小程序测试下是否配置成功,代码如下:

from pyspark import SparkContext
import os
import sys
os.environ[‘SPARK_HOME’] = “I:\spark”
os.environ[‘JAVA_HOME’] = “C:\Program Files\Java\jdk1.8.0_151”

sys.path.append(“I:\spark\python”)
sys.path.append(“I:\spark\lib\py4j-0.9-src.zip”)

sc = SparkContext(‘local’)
doc = sc.parallelize([[‘a’,’b’,’c’],[‘b’,’d’,’d’]])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
dict={}
wd = word_dict_b.value
for w in d:
if wd[w] in dict:
dict[wd[w]] +=1
else:
dict[wd[w]] = 1
return dict
print(doc.map(wordCountPerDoc).collect())
print(“successful”)

运行结果如下图所示,则表明pycharm配置spark成功
这里写图片描述

本人也是第一次接触spark,搭建环境的时候也走了不少弯路,花了不少时间,所以写下这篇文章,希望可以帮助到其他人。

原创粉丝点击