基于pyspark 和scala spark的jupyter notebook 安装
来源:互联网 发布:山东联通宽带网络测速 编辑:程序博客网 时间:2024/06/06 00:13
1.spark安装(本次启动一个worker)
首先安装spark
打开apache spark官网下载页点这里
选择spark版本下载,这里我选spark 2.0.2
在linux系统中使用wget下载,wget是一种从网络上自动下载文件的自由工具,支持断点下载,很好用。没有此工具ubuntu,请使用一下语句安装
apt-get install wgetwget https://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz
然后解压在安装目录
tar -axvf spark-2.0.2-bin-hadoop2.7.tgz
重新命名安装目录文件名,便于记忆使用
mv spark-2.0.2-bin-hadoop2.7 sparkcd /root/spark/sbin
接着启动spark master 和一个slave(work).一下第一条指令在安装目录启动spark master,第二条指令是进入启动日志中,为了找到spark UI中的地址,截图如下:
./start-master.sh vim /root/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-localhost.out ./start-slave.sh spark://localhost.localdomain:7077
查看是否启动成功
ps -ef|grep spark
截图如下,说明启动spark和一个worker成功
浏览器输入你的9.xx.xx.xx:8080,出现spark界面
2. 安装jupyter notebook
下载Anaconda3 找到linux环境下的python3的下载,复制链接,在命令行,使用wget下载工具下载
Anaconda官方下载页
wget https://repo.continuum.io/archive/Anaconda3-4.3.1-Linux-x86_64.sh
使用bash安装,接连按很多次enter建,当出现是否时填yes,是否添加、/root/Anaconda到./bashrc时,回答yes,否则需要自己设置PATH路径,并影响jupyter notebook使用,显示找不到jupyter命令。**Note:**Anaconda3中自带jupyter notebook,也可以使用anaconda2 安装python2.7,但是不自带jupyter notebook,需手动安装
bash Anaconda3-4.3.1-Linux-x86_64.sh
查看是否内置安装时内置PATH
vim ~/.bashrc
测试是否安装成功:
jupyter notebook
若你的linux系统有浏览器,则安装成功会在浏览器打开notebook编辑页
若你的linux没有浏览器,出现如下界面,说明你的linux环境找不到浏览器。此时我们也可以使用远程浏览器打开,比如一个可以连接你linux ip的windows 浏览器
此时只能使用本机浏览器打开,若需要外部访问,还需要设置jupyter的配置文件,使可以远程浏览器访问,若本机存在浏览器,则跳过这一步。
创建并编辑config file,取消注释并设置IP,以及设置禁止自动打开浏览器
jupyter notebook --generate-config vim /root/.jupyter/jupyter_notebook_config.py
打开配置文件后找到如下设置,取消注释,并将c.NotebookApp.ip修改为你的ip地址,将 c.NotebookApp.open_browser修改为false
c.NotebookApp.ip = '9.xx.xx.xx'c.NotebookApp.open_browser = False
第一次在远程浏览器使用jupyter时,需要复制token到浏览器,即
如上图,我的token为
http://104.128.92.12:8888/?token=bc01c6fcbe2656dc1fd250c94d6fd0fcadbe5df1b1cd0e01,复制到远程浏览器,就可以打开notebook编辑界面,如下图:
3.安装spark kernel
到目前为止jupyter只有一个默认的python3的kernel,而且并没有连接任何spark.使用一下命令查看
jupyter kernelspec list
1 基于pyspark的jupyter notebook
此处我们使用spark bin目录下的pyspark连接notebook,即启动./pyspark默认启动notebook.只需要在全局文件./bashrc中设置即可。
打开./bashrc文件
vim ~/.bashrc
添加如下两条全局命令
export PYSPARK_DRIVER_PYTHON=jupyter export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
在spark bin目录下测试notebook是否安装了pyspark,成功即出现如下图:
cd /root/spark/bin./pyspark
2 基于Scala spark的jupyter notebook
此处使用Apache toree给notebook安装scala kernel
toree官网下载页,不需要解压,直接使用pip install安装
wget https://dist.apache.org/repos/dist/dev/incubator/toree/0.2.0/snapshots/dev1/toree-pip/toree-0.2.0.dev1.tar.gzpip install toree-0.2.0.dev1.tar.gz
接着使用一下命令安装,其中spark://localhost.localdomain:7077为你的spark地址,/root/spark为你的spark安装目录
jupyter toree install --spark_opts='--master=spark://localhost.localdomain:7077' --user --kernel_name=Spark2.0 --spark_home=/root/spark
测试是否安装成功,列出kernel列表,发现有两个kernel:python3 和spark 2.0_scala
jupyter kernelspec list
此时,python和scala版的jupyter安装成功
参考链接
http://blog.csdn.net/suzyu12345/article/details/51037905
https://www.douban.com/note/565651872/
- 基于pyspark 和scala spark的jupyter notebook 安装
- jupyter安装及配置scala、spark、pyspark内核
- pyspark调用jupyter notebook
- elasticsearch5.3.0安装以及与基于jupyter notebook 的spark交互
- Jupyter Notebook的安装
- jupyter notebook的安装
- 基于Python安装TensorFlow、库安装和Jupyter Notebook
- jupyter与spark kernel结合的notebook安装及使用
- Python和jupyter notebook安装
- 详解 jupyter notebook 集成 spark 环境安装
- jupyter notebook的安装、配置
- windows下安装ipython和jupyter notebook
- pyspark notebook的使用
- jupyter配置scala和Spark学习环境
- 安装使用jupyter(原来的notebook)
- jupyter notebook的安装与使用
- jupyter notebook的安装与使用
- jupyter notebook的安装与使用
- MXnet在windows下的安装
- 01_mycat1.6源码_mycat接受客户端连接并发送握手报文
- 新词发现方法资料
- 沉浸式状态栏 设置顶部系统栏颜色和actionbar颜色相同
- linux中wc命令用法
- 基于pyspark 和scala spark的jupyter notebook 安装
- angular指令:判断ng-repeat完成后的回调事件
- sdut map水题
- java,\和\\
- springmvc入门学习
- 数据挖掘、数据分析、海量数据处理的面试题(总结july的博客)
- 安装Apache Hadoop
- CSU 1115 最短的名字(湖南省第八届大学生计算机程序设计竞赛)
- DOTween Sequence 使用图解