ubuntu安装spark 2.1.0

来源：互联网发布：图像语义分割算法论文编辑：程序博客网时间：2024/05/16 06:20

spark介绍

spark是一套并行计算的框架，由于在计算过程中，数据在内存中传递，所有，性能要比hadoop的map/reduce在磁盘中传递的效率高很多。下边在使用hdfs的基础上，安装spark单机环境。

1.启动hadoop服务
2.安装spark程序包
3.启动spark服务器

启动hadoop服务

如过尚未安装hadoop，请参考hadoop安装文档

cd $HADOOP_HOME/sbin./start-all.shjps

显示信息如下：

hadoop@hzwy23:/opt/hadoop-2.7.3/sbin$ jps7601 Jps6487 SecondaryNameNode7482 NodeManager4747 NameNode5565 DataNode6655 ResourceManagerhadoop@hzwy23:/opt/hadoop-2.7.3/sbin$

表明hadoop 已经启动成功。

安装spark程序包

spark下载地址官方下载链接
根据hadoop版本，选择对应的spark二进制包。如果下载的是spark源代码，需要安装编译环境，在这里以入门环境搭建为目标，所以，直接下载spark二进制包。
将下载好的压缩包解压到/opt目录中，如下边所示：

hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$ lsbin  conf  data  derby.log  examples  jars  LICENSE  licenses  logs  metastore_db  NOTICE  python  R  README.md  RELEASE  sbin  work  yarnhadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$ pwd/opt/spark-2.1.0-bin-hadoop2.7hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7$

接着设置spark环境变量，修改 ~/.profile 配置文件，在后边添加下面信息

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin

接着执行source命令，使环境变量生效：

source ~/.profile

到此，spark单机版已经安装完成

启动spark服务

cd $SPARK_HOME/sbin./start-all.sh

接着查看spark在jvm中的进程信息：

hadoop@hzwy23:/opt/spark-2.1.0-bin-hadoop2.7/sbin$ jps8800 Jps8710 Worker6487 SecondaryNameNode7482 NodeManager4747 NameNode5565 DataNode7917 Master6655 ResourceManager

上边显示Master、Worker进程已经启动，表示spark已经成功启动。
spark管理页面地址：http://127.0.0.1:8080

运行一个spark自带的圆周率计算函数。

cd $SPARK_HOME/bin./run-example SparkPi 10

结果如下图所示：
这里写图片描述

上边过程，完成了spark的单机模式测试换进搭建，进攻入门学习参考，大数据，需要通过数据爬取 – 业务建模 – 数据分析等等。现在已经打开了spark的入口，后续的将继续完善大数据实践过程。

0 0