VMware中Ubuntu14.04下Spark虚拟集群安装运行步骤简述

来源：互联网发布：污水处理厂模拟软件编辑：程序博客网时间：2024/06/05 03:31

安装过程简述

1. 创建一个虚拟机master，安装Ubuntu14.04（设置为NAT网络）。

2. 安装JDK1.8（jdk1.8.0_25）。

3. 安装SSH免密码登录。

4. 安装hadoop-1.2.1。

5. 安装scala-2.10.4。

6. 安装spark-1.0.1-bin-hadoop1。

7. 克隆虚拟机slave1。

8. 一定要记得把hadoop三个配置文件xml里的localhost改成master！要在http://master:50070里看到1个live nodes和http://master:8080里看到1个worker。

9. 设置网络连接，可以采用NAT方式。IP地址、子网掩码、网关IP（可在VMware的编辑网络的Vnet8里查看）。

10. 在master中，设置/etc/hostname为master，/etc/hosts为192.168.150.200 master，192.168.150.201 slave1。

11. 在slave1中，设置/etc/hostname为slave1，/etc/hosts为192.168.150.200 master，192.168.150.201 slave1。

12. 在master中，Ping一下slave1，初次SSH登录，ssh master，ssh slave1。

13. 重启2台虚拟机，可能会出现网络设备未托管的问题，sudo /etc/NetworkManager/NetworkManager.conf，将managed=false改成true后重启。

14. hadoop namenode –format。

15. 开启hadoop，开启spark。

16. 在局域网内搭虚拟集群：使用桥接方式（一台虚拟机相当于局域网中的物理机），在/etc/network/interfaces里修改IP地址、子网掩码、网关IP、DNS服务器与局域网在同一网段。

最终效果

开发环境搭建

1. 下载Eclipse JUNO（4.2版）

2. 下载Eclipse Scala IDE插件，http://download.scala-ide.org/sdk/e38/scala210/stable/。

3. 配置Eclipse。

4. 本地模式运行（仅开master）：setAppName(“WordCount”)、Run Configuration里面的VM Option填-Dspark.master=local，Arguments里填输入数据所在路径。

5. 集群模式运行（master+slave）：将scala源文件打包为jar，Terminal里输入~/spark-1.2.0-bin-hadoop1/bin/spark-submit--master spark://master:7077 --class WordCount --executor-memory 200m --driver-memory200m ~/WordCount.jar hdfs://master:9

000/user/hadoop/input（输入参数） hdfs://（输出参数）。

6. 本地模式运行时master可以分配2G内存，集群模式运行就分配1G。

0 0