在Linux上配置PySpark

来源：互联网发布：淘宝上解id锁是真的吗编辑：程序博客网时间：2024/04/30 05:58

2016-04-20 20:58:49

配置环境

系统：Debian - 8.3.0

内核版本：3.16.0-4-amd64

Python版本：2.7.9

GCC版本：4.9.2

JDK版本：1.8.0

因为想要在OSX上面安装PySpark（Spark的Python版本），为了保证安装过程顺利，所以我决定现在Linux虚拟机里面安装一遍，了解一下过程和注意的问题。

进入Spark官网下载页面下载你需要的安装包，这里我选择预构建好的、现在最新的压缩包-Download Spark: spark-1.6.1-bin-hadoop2.6.tgz，你也可以下载源码包自己在自己的环境下编译一遍。

将这个压缩包解压并移动到你想要存放应用程序的目录下，你可以把它解压到比如说/bin/下。

解压到当前目录下的命令：

tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz

把解压出来的文件移动到目标目录/bin/的命令：
mv spark-1.6.1-bin-hadoop2.6/ /bin/spark-1.6.1

添加环境变量：
export PATH=$PATH:/bin/spark-1.6.1/bin

查看环境变量：
echo $echo

注意：如果需要开机自动添加该环境变量，就把这句话写到/etc/profile中去，具体的操作方法参考linux添加环境变量的方法总结。

输入pyspark看看安装情况。
我这里出现了一个错误，JAVA_HOME is not set，表示JDK没有配置好，可能因为我这个是临时装的新系统的原因。Debian系Linux的JDK安装配置过程可以参考ubuntu 14.04 下通过apt-get 安装jdk。

正确配置完JDK之后再输入pyspark看看，出现了大大的Spark version 1.6.1，表示Spark配置成功啦！

0 0