spark平台搭建
来源:互联网 发布:java cs的前景 编辑:程序博客网 时间:2024/06/07 04:03
1、准备好相关环境
主要是在集群电脑上安装好java JDK,设置好电脑主机名称,配置Ip地址,利用ssh进行电脑间的连接,并测试好网络连接可靠。搭建hadoop系统(sprak本身不依赖hadoop,这里我想把hadoop用起来),同时可以预装python、pycharm这些可能用到的编程语言和开发环境。hadoop系统如何搭建可参考我之前的博文。
2、安装spark
至官网下载相应版本的spark安装文件
并解压安装包至目标目录
spark路径添加至环境变量
export SPARK_HOME=/usr/spark-2.2.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin
设置spark的java路径
/usr/local/spark/conf/spark-env.sh 里面再加上JAVA_HOME路径
# set JDK pathexport JAVA_HOME=/usr/local/jdkexport PATH=$PATH:$JAVA_HOME/bin
编辑主节点上的conf/slaves文件并填上所有工作节点的主机名
启动集群
与hadoop类似,在主节点上,在/usr/spark-2.2.0-bin-hadoop2.7/sbin$ 下有启动集群的脚本,如在命令行进入spark目录后输入sbin/start-all.sh
集群启动成功后可在http://主机名称:8080看到集群管理器的网页用户界面,上面显示着所有的工作节点。
3、安装开发工具python
ubuntu16.04中已经预装了python,至此我们已经可以利用python语言来使用spark平台了。在/usr/spark-2.2.0-bin-hadoop2.7/bin下有个pyspark.cmd,这个就是spark自带的python开发界面,我们可以使用命令行的方式来与spark系统交互。
但由于ubuntu系统有两个版本,系统默认是用2.7版,可自己设置成3.5版的,方法如下
sudo update-alternatives --install /usr/bin/python python /usr/bin/python2 100sudo update-alternatives --install /usr/bin/python python /usr/bin/python3 150
python --version
可查看python的当前版本
安装pyspark等库
Spark目录下是有pyspark的,因而在spark的shell里可以使用python来与spark进行交互,但要在python中调用spark的功能,还需要安装pyspark库;
安装其他python库前先安装python的pip工具;
sudo apt-get install python-pipsudo pip install --upgrade pip
安装pyspark,安装方法sudo pip3 install pyspark
。在安装过程中可能老是中途中断,有可能是源的问题。可更换源 pip3 install -i https://pypi.doubanio.com/simple/ pyspark
;
为了之后数据挖掘的方便,可先预装好一些python库,方法pip3 install -i https://pypi.doubanio.com/simple/ 包名
;可预装的库有numpy、Scipy、Pandas、Scikit-Learn、Matplotlib、NLTK、pyspark、scrapy、seaborn、collections等。
4、安装python的集成开发环境
安装IPython或pycharm
IPython 是Python shell的增强版。可在http://ipython.org上找到安装方法
Pycharm也可到官网下载
解压Pycharm安装包到目标目录并添加至环境变量
export PYCHARM_HOME=/usr/pycharm-community-2017.2.3export PATH=$PATH:$PYCHARM_HOME/bin
运行sh pycharm.sh
运行一次,之后就可以在dash里直接输入pycharm找到该程序了,也可以将图标锁定启动器。
在pycharm中新建项目时注意选择合适的翻译器,如python3
在python文件中为避免字符乱码问题,开头加“# -- coding: UTF-8 --”
pycharm断点调度
1,设置断点
在代码前面,行号的后面,鼠标单击,就可以设置断点。
2,调试 断点
点击那个绿色的甲虫图标(似乎甲虫已经成为debug专用图标了),进行断点调试。
点击后,会运行到第一个断点。会显示该断点之前的变量信息。
点击Step Over 或者按F8,我们继续往下运行,到下一个断点:
断点的其他操作,和功能,大家可以把鼠标移到相应的按钮上,看一下,试试便知。
5、运行一个小程序来测试spark与hadoop的连接
- Hadoop/Spark平台搭建
- spark平台搭建
- spark平台搭建
- ubuntu 14.04 spark单机平台搭建
- 大数据平台搭建(hadoop+spark)
- 在ubuntu 16.04上搭建spark平台
- Hadoop与Spark平台搭建心得
- 大数据平台搭建(hadoop+spark)
- 大数据平台搭建(hadoop+spark)
- 大数据平台搭建(hadoop+spark)
- 如何在Spark平台搭建ThriftServer
- IM平台的搭建:openfire服务端和spark客户端
- spark分布式平台下python环境的搭建
- hadoop大数据平台手动搭建(六)-spark
- 如何低成本、高效率搭建Hadoop/Spark大数据处理平台
- 在阿里云上搭建 Spark 实验平台
- spark搭建
- spark搭建
- mybatis-Typical or expected login exceptions should extend from AuthenticationException
- 短视频 | 10分钟解读智能问答开源项目YodaQA架构原理
- 机器学习之K-近邻算法代码分析
- Codeforces Round #413 C-Fountains 树状数组
- 书单下载 | 关于算法、编程、机器学习等书籍,也许正是你所需要的
- spark平台搭建
- 统计分享数量,mysql 写法(例如分享方式:发朋友圈或者好友数量)
- IDEA下利用Live Template编写注释模版
- 常用机器学习算法之线性回归
- 短视频 | 问答开源项目解读之整体代码流程和问题分析
- uCOS/FreeRTOS任务创建的两种模式
- [SDS阅读理解/1]源码中的宏
- Stack和Heap的区别
- wustoj(二叉树根节点到指定结点的路径-非递归算法)