阿里云实现Hadoop+Spark集群

来源：互联网发布：单片机是什么专业学的编辑：程序博客网时间：2024/05/20 06:26

前两篇我已经介绍了如何在服务器上搭建Hadoop环境已经Hadoop集群，接下来我将介绍一下如何在Hadoop上搭建Spark集群。（如果你还没看过我前两篇blog，那么这篇你也可以看，不过还是建议先阅读一下前两篇bolg：手把手教你如何使用阿里云搭建Hadoop环境，阿里云搭建Hadoop集群）。

准本工作

还是在之前的master节点和worker节点中进行搭建。

第一步下载Spark并解压到software目录中

wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz tar zxvf spark-2.2.0-bin-hadoop2.7.tg software/

第二步配置scala环境，因为后面准备用scala进行开发

下载scalawget https://downloads.lightbend.com/scala/2.12.3/scala-2.12.3.tgz解压scala压缩包到software tar zxvf scala-2.12.3.tgz software/

第三步配置/etc/profile

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64export JRE_HOME=$JAVA_HOME/jreexport HADOOP_HOME=/root/software/hadoop-2.8.1export SCALA_HOME=/root/software/scala-2.12.3export SPARK_HOME=/root/software/spark-2.2.0-bin-hadoop2.7export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$PATH

立即生效：source /etc/profile

第四步配置spark/conf/slaves

1. cp slaves.template slaves2. vim slaves 添加workerworker1

第五步配置spark/conf/spark-env.sh文件

1. cp spark-env.sh.template spark-env.sh2. vim spark-env.sh 添加如下内容export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64export JRE_HOME=$JAVA_HOME/jreexport SCALA_HOME=/root/software/scala-2.12.3export HADOOP_HOME=/root/software/hadoop-2.8.1export SPARK_DIST_CLASSPATH=$(/root/software/hadoop-2.8.1/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport SPARK_MASTER_PORT=7077export SPARK_MASTER_IP=master

至此master中的Spark环境久搭建好了，下面我们来开启Spark。

进入到Spark中的sbin目录下，执行start-all.sh开启Spark

 cd /root/software/spark-2.2.0-bin-hadoop2.7/sbin ./start-all.sh 这条命令相当于先执行./start-master.sh，在执行./start-slaves.sh

此时能在master中使用jps看到下图，Master已经开启了：
这里写图片描述

在worker中使用jps应该能看到worker已经开启了，如下图：
这里写图片描述

看到上面两个图，表示你的Spark集群已经搭建好了，接下来告诉大家如何查看Spark的Web控制台。很多网上的教程都会在最后在浏览器中输入http://master:4040
打开Spark的Web控制器，粘一张Spark Web页面的图，但是只通过上面的步骤，是不能打开的Web控制的页面。正确的姿势如下：

cd /root/software/spark-2.2.0-bin-hadoop2.7/bin./spark-shell.sh之后才能在浏览器中输入http://master:4040 才能看到如下的Web控制页面

这里写图片描述

为什么之前看不到呢？那是因为web控制器只在Spark提交job的时候才会显示，使用./spark-shell.sh进入到Spark提交job的状态，如下：
这里写图片描述

哈哈，接下来，大家就可以愉快的玩耍Spark集群了。。。。。。

阅读全文

0 0