Spark中的python shell交互界面Ipython和jupyter notebook

来源:互联网 发布:保定网络舆情日报 编辑:程序博客网 时间:2024/05/22 13:23

Spark是一个用来实现快速和通用的集群计算平台.而且提供丰富的接口.Python,java,scala和SQL
1.下载安装
在Ubuntu上,下载预编译版的spark,解压后即可使用.从官网http://spark.apache.org/downloads.html,下载预编译版”Pre-bulid for Hadoop 2.7 and later”,下载后得到一个压缩文件.tgz
打开终端,进入压缩文件所在目录,用下面命令解压文件
$ tar -xf spark-x.x.x-bin-hadoopx.x.tgz
进入解压后的文件夹,输入下面命令打开python版本的Spark shell
$ ./bin/pyspark
2.日志信息
在Spark shell启动后会显示出很多日志信息,可通过修改配置文件,设定日志信息显示的内容,只显示警告以及更严重的信息
进入解压后的spark文件夹中,打开conf文件夹,新建一个名为log4.properties的文件,在conf文件夹中找到log4.properties.template文件,用编辑器打开复制全部内容到刚才新建的文件log4.properties中,然后找到log4.rootCategory=INFO,console这一行内容:
修改为:
log4.rootCategory=WARN,console
保存退出
3.在Ipython中启动Pyspark
在Spark1.0版本中,打开终端进入spark文件夹所在目录
$ IPYTHON =1 ./bin/pyspark
如果使用jupyter notebook ,web 版的Ipython.,在同样目录下
$ IPYTHON_OPTS=’notebook’ ./bin/pyspark

在最新的**Spark2.1.1**中,以上命令不在有效,在同样目录下使用新命令打开Ipython,$  PYSPARK_DRIVER_PYTHON=ipython      ./bin/pyspark打开Jupyter notebook,$   PYSPARK_DRIVER_PYTHON_OPTS='notebook'$   PYSPARK_DRIVER_PYTHON=jupyter      ./bin/pyspark
原创粉丝点击