（6）Spark 2.0.0 伪分布安装

来源：互联网发布：php测试链接ftp服务器编辑：程序博客网时间：2024/06/06 02:48

引言
Hadoop伪分布安装
Scala安装
Spark伪分布安装

1.引言

Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有MapReduce所具有的优点；但不同于MapReduce的是——中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在本篇博客中主要介绍一下Spark的伪分布安装，博主的环境为：

操作系统为：Centos6.7
JDK的版本为：1.7
JDK的安装目录为：/usr/local/jdk
Hadoop的版本为：2.6.1
Hadoop的安装目录为：/usr/local/hadoop
scala的安装版本为2.11.8
scala的安装目录为/usr/local/scala
spark的安装版本为2.0.0
spark的安装目录为/usr/local/spark

2 .`Hadoop`伪分布安装

因为Spark可以使用Yarn平台调度资源（也可以不使用Yarn平台，因为个人比较喜欢，所以首先安装了Hadoop的伪分布），Hadoop伪分布安装的链接地址为：Hadoop 2.6.1伪分布搭建

如果不安装Yarn平台，请首先配置SSH免密码登陆，SSH免密码登陆请参考地址：SSH免密码登陆

3 .`Scala`安装

首先将scala解压，并改名

//将scala解压到/usr/local目录下tar -zxvf scala-2.11.8.tgz -C /usr/local///进入到/usr/local目录cd /usr/local//修改scala目录名称mv scala-2.11.8 scala

这里写图片描述

修改环境变量

//修改profile文件vim /etc/profile//修改的环境变量内容export SCALA_HOME=/usr/local/scalaexport PATH=$SCALA_HOME/bin:$PATH//重新加载环境变量文件source /etc/profile

这里写图片描述

验证scala是否安装成功

//命令验证scala是否成功安装scala -version

这里写图片描述

4. `Spark`伪分布安装

将Spark解压，并改名

//将spark解压到/usr/local目录下tar -zxvf spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local///进入到/usr/local目录cd /usr/local//修改spark目录名称mv spark-2.0.0-bin-hadoop2.6 spark

修改spark的配置文件：conf/spark-env.sh

//将配置模板文件，修改为配置文件cp spark-env.sh.template spark-env.sh//修改配置文件的内容如下所示：export JAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport SPARK_WORKER_MEMORY=1Gexport HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SPARK_MASTER_IP=localhost

这里写图片描述

验证spark是否安装成功

//启动spark（sbin目录下面）./start-all.sh//使用jps查看进程，出现Master和Worker进程即启动成功jps

这里写图片描述

Web浏览器验证Spark安装成功(http://localhost:8080)

//启动spark（sbin目录下面）./start-all.sh//当启动spark之后，浏览器输入http://localhost:8080，如果出现下图即启动成功

这里写图片描述

阅读全文

1 0

（6）Spark 2.0.0 伪分布安装

1.引言

2 .Hadoop伪分布安装

3 .Scala安装

4. Spark伪分布安装

2 .`Hadoop`伪分布安装

3 .`Scala`安装

4. `Spark`伪分布安装