linux spark分布式集群搭建图文详解
来源:互联网 发布:广电网络三合一机顶盒 编辑:程序博客网 时间:2024/05/17 07:34
一.前期准备
1.1 Win7官网下载spark包
本文使用版本spark-1.6.2-bin-hadoop2.6.tgz
1.2 配置jdk
jdk1.7:linux jdk安装和配置
scala2.10.6:linux scala安装和配置
hadoop-2.6.5:hadoop分布式集群搭建
1.3 centos7集群服务器
主机名 系统 IP地址master centos7 192.168.32.128slave01 centos7 192.168.32.131slave02 centos7 192.168.32.132
二.spark完全分布式集群搭建
以下操作只针对master主机服务器,其他主机服务器类似。
2.1 上传spark包至 /opt/software目录
2.2 解压和拷贝spark至 /usr/local/spark
cd /opt/softwaretar -zxvf spark-1.6.2-bin-hadoop2.6.tgzcp -r spark-1.6.2-bin-hadoop2.6 /usr/local/spark
spark解压和拷贝完成
三.spark完全分布式集群配置
3.1 系统文件profile配置
配置系统环境变量
vi /etc/profile
退出保存,重启配置
source /etc/profile
3.2 文件配置
定位:cd /usr/local/spark/conf
默认:
log4j.properties.template,spark-env.sh.template,slaves.template,spark-defaults.conf.template
复制:
log4j.properties,spark-env.sh,slaves,spark-defaults.conf
3.3 修改spark-env.sh文件
vi spark-env.shexport JAVA_HOME=/usr/local/jdkexport SCALA_HOME=/usr/local/scalaexport HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SPARK_MASTER_IP=masterexport SPARK_WORKER_MEMORY=1Gexport SPARK_EXECUTOR_MEMORY=1Gexport SPARK_DRIVER_MEMORY=1Gexport SPARK_WORKER_CORES=6
3.4 修改spark-defaults.conf文件
vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://master:9000/historyserverforSparkspark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"spark.yarn.historyServer.address master:18080spark.history.fs.logDirectory hdfs://master:9000/historyserverforSpark
3.5 修改slaves文件
vi slavesmasterslave01slave02
3.6 hadoop新建historyserverforSpark目录
#新建historyserverforSpark目录hadoop fs -mkdir /historyserverforSpark#查看目录hadoop fs -ls /
3.7 slave01和slave02服务器修改
3.7.1 spark文件复制
复制master中spark文件到slave01和slave02服务器的/usr/local目录
scp -r /usr/local/sparkroot@slave01:/usr/local/sparkscp -r /usr/local/sparkroot@slave012:/usr/local/spark
3.7.2 系统环境profile配置
类似3.1 分别在salve01和slave02配置系统环境
四.spark集群测试
4.1 测试命令
#启动start-all.sh start#停止stop-all.sh start
4.2 集群测试
在master服务器运行启动命令
进入/usr/local/spark目录
4.2.1 启动各个节点
sbin/start-all.sh start
4.2.2 启动start-history-server
sbin/start-history-server.sh
4.2.3 查看节点状态
jps查看节点进程
4.2.4 web端验证是否启动成功
通过web端的18080端口查看是否启动成功
http://192.168.32.128:18080
4.2.5 通过spark-submit命令运行jar包
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.32.128:7077 lib/spark-examples-1.6.2-hadoop2.6.0.jar 10
至此,spark完成分布式集群搭建完毕。
0 0
- linux spark分布式集群搭建图文详解
- linux hadoop完全分布式集群搭建图文详解
- 搭建Spark分布式集群
- 搭建Spark分布式集群
- linux zookeeper3.4.9集群搭建图文详解
- Spark 分布式集群环境搭建
- spark完全分布式集群搭建
- Linux搭建spark集群
- spark分布式安装 spark集群搭建 hadoop集群搭建
- spark分布式安装 spark集群搭建 hadoop集群搭建
- 高效搭建Spark完全分布式集群
- spark环境搭建,伪分布式、集群
- Spark入门 - 1 搭建Hadoop分布式集群
- Spark 1.6.1分布式集群环境搭建
- Hadoop+Spark分布式集群搭建过程
- Spark 2.0分布式集群环境搭建
- SequoiaDB分布式数据库集群模式搭建Spark
- Spark 完全分布式集群搭建过程
- 代码Python入门(四、条件语句)
- Dos常用命令
- 使用类-运算符重载和友元
- Cisco路由器中Telnet, Console, AUX口login命令的含义
- lintcode(401)排序矩阵中的从小到大第k个数
- linux spark分布式集群搭建图文详解
- Butter Knife
- Linux基础配置ftp
- FastDfs (三) Nginx整合Fastdfs模块
- 芯片架构换血!如何评价微软在数据中心使用FPGA?
- 模拟海明码生成
- 湖北民族学院OJ 1778 (dfs)之 堆积木
- LeetCode 35. Search Insert Position
- Ajax批量操作数据