Spark on Yarn+Hbase环境搭建指南（一）准备工作

来源：互联网发布：明道软件百度百科编辑：程序博客网时间：2024/06/04 20:04

说明

本文档指导Spark On Yarn的大数据开发平台搭建流程。共涉及如下系统：Hadoop, Spark, NTP, HBase。这是今年六月份做的Spark On Yarn集群环境搭建的试验，主要服务于自己的一个青年自然科学基金。实际搭建过程中发现网上虽然各方面都有教材，但很多换个操作系统、软件就出现了问题，且有些地方总有些不严谨。本着认真负责的态度，对自己的搭建过程进行了记录，希望能够帮到也被各种坑困扰的同仁。因为单位里是内网机，截图略少。

一、环境及版本简介

安装环境：

操作系统：Centos7.0

三台虚拟机，配置在Esxi5.0下，通过客户端工具VMware vSphere Client连接并操作。

软件版本：

JAVA版本：1.7.0_75 OpenJDK

Hadoop版本：2.6.0

SCALA版本：2.10.5

SPARK版本：1.3.1

HBase版本：1.0.1.1

二、准备工作

1、设置固定IP

修改IP配置文件/etc/sysconfig/network-scripts/ifcfg-ens32，

修改后如下：

BOOTPROTO=static

DEFROUTE=yes

PEERDNS=yes

PEERROUTES=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_PEERDNS=yes

IPV6_PEERROUTES=yes

IPV6_FAILURE_FATAL=no

NAME=ens32

UUID=bfc79c8b-efce-4ab5-9632-f16d134f4c83

DEVICE=ens32

ONBOOT=yes

IPADDR=192.168.8.250 #从网络适配器观察的IP范围中选择，每台主机应不同

GATEWAY=192.168.8.1#根据实际情况配置

NETMASK=255.255.255.0

DNS1=192.168.8.1#根据实际情况配置

NM_CONTROLLED=no

重启：service network restart

测试；互相PING一下，看是否集群内机器互通

2、关闭防火墙

systemctlstop firewalld.service #停止firewall

systemctldisable firewalld.service #禁止firewall开机启动

3、配置SSH互信

$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat~/.ssh/id_dsa.pub >>~/.ssh/authorized_keys

将多台机器生成的id_dsa.pub文件拷至一个authorized_keys文件中，并覆盖集群中其他机器的此文件。

测试：互相SSH一下，如果不需要输入密码，则配置成功

4、安装Java

确认JAVA版本为HADOOP官方推荐版本，可参考官网。笔者在centos安装时同时选择安装了JAVA，故此处略。

5、设置HOSTNAME

修改：/etc/sysconfig/network

本次配置如下：Master，DataNode1， DataNode2

6、配置HOSTS

修改：/etc/hosts

设置IP与名称对应关系，本次配置如下：

127.0.0.1 localhost

192.168.8.250 master

192.168.8.251 datanode1

192.168.8.249 datanode2

注：欢迎转载，转载请注明出处

0 0