Ubuntu16.0.4下搭建Spark2.1.0-bin-Hadoop2.7
来源:互联网 发布:firewall cmd 80端口 编辑:程序博客网 时间:2024/06/03 23:06
搭建环境
三台机器系统均为ubuntu16.0.4,内存8g,16g,16g.一台做master,另外两台做slave,安装的是jdk1.8.0, hadoop2.7.3, scala2.11.8, spark2.1.0-bin-hadoop2.7
搭建顺序
安装hadoop2.7.3
安装scala2.11.8
安装spark-2.1.0-bin-hadoop2.7
搭建Hadoop2.7.3
参考 Hadoop2.7.3完全分布式集群搭建和测试 这篇博客,亲测可行。
1.修改电脑hostname和hosts文件,将电脑名称在改为hostname文件里修分别改为Master,Slave1, Slave2,并在hosts文件里加入另外两台电脑的信息(IP地址以及电脑名称),如下:
#修改hostname的命令sudo vim /etc/hostname#修改hosts的命令sudo vim /etc/hosts
想修改后的hostname需要重启电脑才能生效,修改后的hosts文件如下所示
2.在三台电脑上分别建立用户,三台电脑用户名设置成相同如hadoop。这里用户权限问题应该设置一下,否则后面配置hadoop时可能会因权限问题出错,简单起见的话可以赋予用户root权限
sudo add user hadoop
3.配置ssh
#安装sshsudo apt-get install openssh-server#产生key,生成的key保存在~/.ssh文件夹下ssh-genkey#在Master上,导入authorized_keyscat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys#远程无密码登录(把Master上的authorized_keys拷贝到其他主机的相应目录下)scp ~/.ssh/authorized_keys hadoop@Slave1:~/.ssh/scp ~/.ssh/authorized_keys hadoop@Slave2:~/.ssh/#测试一下三台主机彼此之间是否可以连通ssh Masterssh Slave1ssh Slave2#如果想在ssh连接时不使用主机名称而是想使用自己设置的名称可以编辑.ssh文件夹下的config文件
配置好ssh之后,下面大部分操作只需在Master主机上配置,然后通过scp将配置好的文件传给Slave即可
4.安装jdk,这里不多说了。Master上安装之后scp给Slave,并且最好在三台主机上将jdk安装在相同的目录下方便后面的配置。
5.安装hadoop
(1).解压到相应位置
(2).在hadoop目录下新建如下目录
sudo mkdir ./dfs
sudo mkdir ./dfs/name
sudo mkdir ./dfs/data
sudo mkdir ./tmp
(3).配置文件,文件位置在HADOOP_HOME/etc/hadooop下面,这里待填具体配置内容
hadoop-env.sh, yarn-env.sh, slaves, core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml(4).将Master主机上配置好的文件传给Slave
scp -r /opt/hadoop2.7.3 hadoop@Slave1:/opt/
(5). 配置环境变量,编辑/etc/profile
sudo gedit /etc/profile
export HADOOP_HOME=/opt/Hadoop/hadoop-2.7.3 export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HADOOP_HOME/bin
source /etc/profile
(6). 测试启动/停止hadoop
hdfs namenode -format
start-hdfs.sh
start-yarn.sh
终端输入jps查看是否启动成功
stop-hdfs.sh
stop-yarn.sh
如果出现datanode启动不成功的问题,有可能是多次format的原因导致/dfs/data和/dfs/name里面id不一样,具体可搜索解决方法。
安装scala2.11.8
参考 Spark-2.0.1 安装 及 WordCount (详细图文)这篇博客
scala安装相对简单,解压到相应位置,scp到其他机器,再配置一下/etc/profile文件即可
安装spark
参考 Spark-2.0.1 安装 及 WordCount (详细图文)这篇博客
关于Hadoop配置里的slaves文件和Spark配置里的slaves文件暂时还没有搞清楚
- Ubuntu16.0.4下搭建Spark2.1.0-bin-Hadoop2.7
- CentOS7下 Hadoop2.7.3+Spark2.1.0 集群环境搭建(1NN+2DN)
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- Hadoop2.7.3和Spark2.1.0集群详细搭建教程
- spark2.1.0完全分布式集群搭建-hadoop2.7.3
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
- hadoop2.7.2+hbase1.2.5+storm1.1.0+spark2.1.1环境搭建
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- CentOS7 基于Hadoop2.7 的Spark2.0集群搭建
- Centos 7.2 Hadoop2.7+Spark2.1分布式集群搭建
- hadoop2.5.2+ubuntu16.0.4集群环境搭建
- Ogre Overlay 加载失败
- [BZOJ2467][中山市选2010]生成树(组合数学)
- jQuery与其它库冲突的解决方法
- Android(安卓)面试中常见的一些面试题和答案,希望对大家有用
- C++通过线程方式读取给出的二进制文件数据
- Ubuntu16.0.4下搭建Spark2.1.0-bin-Hadoop2.7
- 前端技术学习之选择器(十二)
- 微信H5页面的建议尺寸
- 旋转的八卦图,纯CSS实现
- 浅谈数据对齐对CPU效率的影响
- Anaconda 安装编译pycaffe
- double类型值相等判断
- HTML+css每日一结1.14
- XUtils的view模块