在Linux上配置PySpark

来源:互联网 发布:淘宝上解id锁是真的吗 编辑:程序博客网 时间:2024/04/30 05:58

2016-04-20 20:58:49

配置环境


系统:Debian - 8.3.0

内核版本:3.16.0-4-amd64

Python版本:2.7.9

GCC版本:4.9.2

JDK版本:1.8.0

引言


因为想要在OSX上面安装PySpark(Spark的Python版本),为了保证安装过程顺利,所以我决定现在Linux虚拟机里面安装一遍,了解一下过程和注意的问题。

配置过程


1. 下载预构建好的Spark压缩包

进入Spark官网下载页面下载你需要的安装包,这里我选择预构建好的、现在最新的压缩包-Download Spark: spark-1.6.1-bin-hadoop2.6.tgz,你也可以下载源码包自己在自己的环境下编译一遍。

2. 解压压缩包

将这个压缩包解压并移动到你想要存放应用程序的目录下,你可以把它解压到比如说/bin/下。

解压到当前目录下的命令:

tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz

把解压出来的文件移动到目标目录/bin/的命令:
mv spark-1.6.1-bin-hadoop2.6/ /bin/spark-1.6.1

3. 添加环境变量

添加环境变量:
export PATH=$PATH:/bin/spark-1.6.1/bin

查看环境变量:
echo $echo

注意:如果需要开机自动添加该环境变量,就把这句话写到/etc/profile中去,具体的操作方法参考linux添加环境变量的方法总结。

4. 测试配置情况

输入pyspark看看安装情况。
我这里出现了一个错误,JAVA_HOME is not set,表示JDK没有配置好,可能因为我这个是临时装的新系统的原因。Debian系LinuxJDK安装配置过程可以参考ubuntu 14.04 下通过apt-get 安装jdk。

正确配置完JDK之后再输入pyspark看看,出现了大大的Spark version 1.6.1,表示Spark配置成功啦!

参考文档


  1. Spark入门(Python版)这篇文章对我的帮助很大,基本上的流程都是按照这篇文章来的,里面还有一些对于Spark的介绍。

  2. linux添加环境变量的方法总结

  3. ubuntu 14.04 下通过apt-get 安装jdk

0 0
原创粉丝点击