基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
来源:互联网 发布:数据备份软件 编辑:程序博客网 时间:2024/05/18 00:59
原文链接:http://blog.csdn.net/gamer_gyt/article/details/52045663
写在前边的话
hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客
基本环境:
CentOS 6.5,Hadoop 2.7,Java 1.7
Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2
预安装
Scala 2.11
Spark 2.0
Sqoop 1.4.6
Mahout 0.12.2
一:安装 Scala 2.11.X
下载:点击进入下载 (我使用的是Scala 2.11.8)
1:解压到指定目录,并重命名文件夹
sudo tar -zxvf /home/master/下载/scala-2.11.8.tar.gz -C /opt/
sudo mv scala-2.11.8/ /opt/scala
2:修改环境变量
sudo vim /etc/profile 加入如下代码:
source /etc/profile
3:每台机器上都部署scala
执行 sudo scp -r /opt/scala/ slave1:/opt/scala
sudo scp -r /opt/scala/ slave2:/opt/scala
分别在各个节点上修改环境变量即可
4:运行scala
终端直接输入scala即可
二:安装 Spark 2.0
下载:点击进入下载 (这里建议不要安装最新版Spark,具体看评论)
1:解压到指定目录,并重命名文件夹
[master@master1 opt]$ sudo tar -zxvf /home/master/下载/spark-2.0.0-bin-hadoop2.7.tgz -C .
[master@master1 opt]$ sudo mv spark-2.0.0-bin-hadoop2.7/ spark
2:配置环境变量
sudo vim /etc/profile ,加入
3:配置spark-env.sh
复制 :sudo cp spark-env.sh.template spark-env.sh
加入以下:
4:将 slaves.template 拷贝到 slaves, 编辑内容为
master1
slave1
slave2
5:将spark目录拷贝到各个节点
sudo scp -r /opt/spark/ slave1:/opt/spark
sudo scp -r /opt/spark/ slave2:/opt/spark
并修改各个节点的环境变量
6:启动 spark
启动master: sbin/start-master.sh
启动salve: sbin/start-slaves.sh
如遇到权限不足问题,直接给每台机器上的spark目录赋予 777 的权限即可
7:web界面
http://192.168.48.130:8080/
8:shell 界面
bin/spark-shell
三:安装 Sqoop 1.4.6
下载:点击进入下载
1:解压到指定目录,并重命名
2:配置环境变量
sudo vim /etc/profile
3:复制Mysql-jdbc 包到sqoop/lib目录下
sudo cp /home/master/下载/MySQL-connector-Java-5.1.39-bin.jar /opt/sqoop/lib/
4:修改bin/configure-sqoop文件
此时如果没有启用hbase,zookeeper等组件,将相应的信息注释,如果启用了,就pass,直接进入下一步
5:sqoop help 查看帮助
四:安装 Mahout 0.12.2
下载:点击进入下载
1:解压到指定目录,并重命名
注意路径问题
2:配置环境变量
sudo vim /etc/profile ,加入以下内容:
保存生效:source /etc/profile3:启动mahout
进入mahout安装目录,执行:bin/mahout
五:额外补充
1:出现 sudo: command not found时
执行 export PATH=$PATH:/bin:/usr/bin:/usr/local/bin 即可
2:这里我们发现除了spark的分布式安装以外要把安装包拷贝到各个节点之外,sqoop和mahout并不需要,只需要在master主机上部署即可,我的理解是sqoop只是进行数据传输的,数据可以是HDFS上的,也可以是Hive,或者Hbase上的,而本身他们已经是分布式的了,所以这里自然不需要将其拷贝到各个节点,而mahout也一样吧,只要运行在分布式的平台上即可,其所依赖的数据也是在hdfs或者hive上,故也不需要将其拷贝到各个节点
3:那么问题来了,我们是否可以将sqoop或者mahout部署到slave节点上呢?答案是肯定的吧,因为每台机器之间是可以互相通过ssh访问的,sqoop使用时可以直接加上对应的IP地址即可,而mahout就可以直接使用了
大数据全新视频教程,博主亲自整理,点击查看
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- hadoop2.7集群完全分布式安装配置
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- spark2.1.0完全分布式集群搭建-hadoop2.7.3
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- 基于HA的hadoop2.7.1完全分布式集群搭建
- Linux集群Hadoop2.5.1完全分布式安装
- Hadoop2.7.3完全分布式集群安装过程
- Centos 7.2 Hadoop2.7+Spark2.1分布式集群搭建
- Sqoop1.4.4在Hadoop2.2.0集群上的安装
- 基于Ubuntu14.04的Hadoop2.6.0完全分布式安装
- Hadoop2.7.3+Spark2.1.0 完全分布式环境
- Struts,Spring,Hibernate面试题总结
- AsynTask的一些使用
- Notepad 20170302PM
- opencv3.1的HOG特征检测参数详解(HOG梯度直方图的高质量文章*****)
- linode上搭建有standby+mirror功能的Greenplum集群并用TPC-DS基准测试
- 基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装
- N*N数组插入数字
- Windows下VS2013 C++编译测试faster-rcnn
- Android Studio 环境搭建 与相关问题解决方案
- android打开指定的浏览器
- 动态代理
- 分层架构下的纯JDBC事务控制简单解决方案
- 如何判断横屏还是竖屏?
- session无法设置