Hadoop+spark+hive全分布环境的搭建
来源:互联网 发布:剑指offer python 编辑:程序博客网 时间:2024/05/18 16:36
一、基础环境配置
我采用的是三台虚拟主机,操作系统为centos7。hadoop版本为2.6 、hive2.1.1版本为(可自行到官网下载)、jdk7、Scala2.11.0、zookeeper3.4.5
二、安装教程
(1)jdk的安装
从官网自行下载jdk到本地,然后通过ftp传到linux系统上,直接解压,解压后配置环境变量,我的环境变量配置如下:
JAVA_HOME=/usr/java/jdk1.7.0_80JRE_HOME=$JAVA_HOME/jreCLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/libPATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/binexport JAVA_HOME JRE_HOME CLASS_PATH PATHsource /etc/profile 使得变量生效
通过 java 和javac 可以检测是否安装成功!
(2)配置SSH免密码登录
ssh-keygen
- 把id_rsa.pub追加到授权的key里面去
- cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- 修改文件”authorized_keys”权限
- chmod 600 ~/.ssh/authorized_keys
- 设置SSH配置
- 重启ssh服务
- 1
- 把公钥复制所有的Slave机器上
- 在slave主机上创建.ssh文件夹
- 追加到授权文件”authorized_keys”
- 删除无用.pub文件
- 1
在master主机下进行测试
(3)hadoop的安装- 在”/usr/hadoop”下面创建tmp文件夹
export HADOOP_HOME=/usr/hadoop/hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
- 设置hadoop-env.sh和yarn-env.sh中的java环境变量
- cd /usr/hadoop/etc/hadoop/vi hadoop-env.sh// 修改JAVA_HOMEexport JAVA_HOME=/usr/java/jdk1.7
- 配置core-site.xml文件
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
<description>A base for other temporary directories.</description>
</property><property><name>fs.default.name</name>
<value>hdfs://Master.Hadoop:9000</value></property></configuration>
- 配置hdfs-site.xml文件
- 配置mapred-site.xml文件
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 配置yarn-site.xml文件
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
配置Hadoop的集群
- 将Master中配置好的hadoop传入两个Slave中
- 1
- 2
- 修改Master主机上的slaves文件
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 格式化HDFS文件系统
- 1
- 2
- 启动hadoop
(4)mysql的安装
https://www.cnblogs.com/xxoome/p/5864912.html
(5)hive的安装
tar -xzvf apache-hive-2.1.1-bin.tar.gz ##解压
设置环境变量:
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin:$PATH
- cp hive-default.xml.template hive-site.xml
mv hive-default.xml.template hive-site.xmlvi hive-site.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://spark1:3306/hive_metadata?createDatabaseIfNotExist=true</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value></property><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property>
hive 测试
(7)ZooKeeper 3.4.5集群搭建
1、将zookeeper-3.4.5.tar.gz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对zookeeper-3.4.5.tar.gz进行解压缩:tar -zxvf zookeeper-3.4.5.tar.gz。
3、对zookeeper目录进行重命名:mv zookeeper-3.4.5 zk。
4、配置zookeeper相关的环境变量
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
- 5
- 6
- 7
设置zk节点标识
- 1
- 2
- 3
- 4
- 5
- 6
搭建zk集群
1、在另外两个节点上按照上述步骤配置ZooKeeper,使用scp将zk和.bashrc拷贝到spark2和spark3上即可。
scp -r zk root@slave1:/usr/local/
2、唯一的区别是spark2和spark3的标识号分别设置为1和2。及myid 中的值修改为1 和2
启动ZooKeeper集群
安装scala 2.11.4
1、将scala-2.11.4.tgz使用WinSCP拷贝到spark1的/usr/local目录下。
2、对scala-2.11.4.tgz进行解压缩:tar -zxvf scala-2.11.4.tgz。
3、对scala目录进行重命名:mv scala-2.11.4 scala
4、配置scala相关的环境变量
- 1
- 2
- 3
- 4
5、查看scala是否安装成功:scala -version
6、按照上述步骤在spark2和spark3机器上都安装好scala。使用scp将scala和.bashrc拷贝到spark2和spark3上即可。
安装spark包
1、将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下。
2、解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。
3、更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark
4、设置spark环境变量
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
安装spark集群
在另外两个节点进行一模一样的配置,使用scp将spark和.bashrc拷贝到spark2和spark3即可。
启动spark集群
1、在spark目录下的sbin目录
2、执行 ./start-all.sh
3、使用jsp和8080端口可以检查集群是否启动成功
4、进入spark-shell查看是否正常
- Hadoop+spark+hive全分布环境的搭建
- ubuntu14.04的hadoop环境搭建(全分布模式)
- Spark + Hadoop-2.2.0 伪分布环境下的环境搭建
- Hadoop+Hive环境的搭建
- 分布搭建hadoop环境
- hadoop 伪分布的环境搭建
- Hadoop+Hive环境搭建
- 单机伪分布下的hadoop+spark 环境配置
- hadoop伪分布环境搭建
- hadoop伪分布环境搭建
- hadoop伪分布环境搭建
- hadoop为分布环境搭建
- hadoop完全分布环境搭建
- hadoop伪分布环境搭建
- hadoop spark 环境搭建
- Spark+Hadoop环境搭建
- 基于Ubuntu 14的hadoop全分布集群搭建
- 单机搭建基于Hadoop的Spark环境
- Treap简介
- react基础demo
- 第十二周 【项目5
- 11月英语总结
- 每日一练-12
- Hadoop+spark+hive全分布环境的搭建
- 走穿java23钟设计模式-11外观模式
- 一个有趣python self的题目
- 第十三周 【项目1
- Linux常用指令
- 模糊图像退化与去模糊的数学模型
- <每日一题>最大回文子字符串
- springMVC容器和Spring容器
- unity3d保存文件到本地and加载本地文件