在Linux上配置PySpark
来源:互联网 发布:淘宝上解id锁是真的吗 编辑:程序博客网 时间:2024/04/30 05:58
2016-04-20 20:58:49
配置环境
系统:Debian - 8.3.0
内核版本:3.16.0-4-amd64
Python版本:2.7.9
GCC版本:4.9.2
JDK版本:1.8.0
引言
因为想要在OSX
上面安装PySpark
(Spark的Python版本),为了保证安装过程顺利,所以我决定现在Linux虚拟机
里面安装一遍,了解一下过程和注意的问题。
配置过程
1. 下载预构建好的Spark压缩包
进入Spark官网下载页面下载你需要的安装包,这里我选择预构建好的、现在最新的压缩包-Download Spark: spark-1.6.1-bin-hadoop2.6.tgz
,你也可以下载源码包自己在自己的环境下编译一遍。
2. 解压压缩包
将这个压缩包解压并移动到你想要存放应用程序的目录下,你可以把它解压到比如说/bin/
下。
解压到当前目录下的命令:
tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz
把解压出来的文件移动到目标目录/bin/
的命令: mv spark-1.6.1-bin-hadoop2.6/ /bin/spark-1.6.1
3. 添加环境变量
添加环境变量: export PATH=$PATH:/bin/spark-1.6.1/bin
查看环境变量: echo $echo
注意:如果需要开机自动添加该环境变量,就把这句话写到/etc/profile中去,具体的操作方法参考linux添加环境变量的方法总结。
4. 测试配置情况
输入pyspark
看看安装情况。
我这里出现了一个错误,JAVA_HOME is not set
,表示JDK
没有配置好,可能因为我这个是临时装的新系统的原因。Debian系Linux
的JDK
安装配置过程可以参考ubuntu 14.04 下通过apt-get 安装jdk。
正确配置完JDK
之后再输入pyspark
看看,出现了大大的Spark version 1.6.1
,表示Spark
配置成功啦!
参考文档
Spark入门(Python版)这篇文章对我的帮助很大,基本上的流程都是按照这篇文章来的,里面还有一些对于Spark的介绍。
linux添加环境变量的方法总结
ubuntu 14.04 下通过apt-get 安装jdk
- 在Linux上配置PySpark
- 在pycharm上配置pyspark
- 在Mac OSX上配置PySpark
- 在pyspark上配置ipython notebook
- windows10上配置pyspark工作环境
- 在cloudera VM上设置PySpark
- 在mac上安装下pySpark,并且在pyCharm中python调用pyspark
- pyspark DecisionTreeModel不能在RDD上直接使用
- 如何在windows下安装配置pyspark notebook
- 在Linux上配置无线网络
- 在Linux上配置无线网络
- 在 Linux 上配置 mongodb
- 在 Linux 上配置 mongodb
- 在 Linux 上配置 mongodb
- 在 Linux 上配置 mongodb
- pyspark环境配置
- 在LINUX上动态配置核心参数
- 在Linux上配置AWSTATS with GeoIP
- unable to locate adb
- mysql+C#实战七:从界面输入记录
- 贪吃蛇java源代码
- vagrant 安装与配置(phpstorm)
- Linux ubuntu下svn的命令使用指南
- 在Linux上配置PySpark
- VC6.0如何插入条件断点
- Android中SharedPreferences用法
- iOS UIPageViewController模仿真实翻页效果
- 笔试面试——fork()
- Spring 事务管理 DataSourceTransactionManager 和 DataSourceTransactionManager
- HDU-1501 (POJ-2192) Zipper (DFS||DP)
- 下拉列表框Spinner
- [疯狂Java]JDBC:用blob处理多媒体类型数据