VMware中Ubuntu14.04下Spark虚拟集群安装运行步骤简述

来源:互联网 发布:污水处理厂模拟软件 编辑:程序博客网 时间:2024/06/05 03:31

安装过程简述


1.     创建一个虚拟机master,安装Ubuntu14.04(设置为NAT网络)。

2.     安装JDK1.8(jdk1.8.0_25)。

3.     安装SSH免密码登录。

4.     安装hadoop-1.2.1。

5.     安装scala-2.10.4。

6.     安装spark-1.0.1-bin-hadoop1。

7.     克隆虚拟机slave1。

8.     一定要记得把hadoop三个配置文件xml里的localhost改成master!要在http://master:50070里看到1个live nodes和http://master:8080里看到1个worker。

9.     设置网络连接,可以采用NAT方式。IP地址、子网掩码、网关IP(可在VMware的编辑网络的Vnet8里查看)。

10.  在master中,设置/etc/hostname为master,/etc/hosts为192.168.150.200 master,192.168.150.201 slave1。

11.  在slave1中,设置/etc/hostname为slave1,/etc/hosts为192.168.150.200 master,192.168.150.201 slave1。

12.  在master中,Ping一下slave1,初次SSH登录,ssh master,ssh slave1。

13.  重启2台虚拟机,可能会出现网络设备未托管的问题,sudo /etc/NetworkManager/NetworkManager.conf,将managed=false改成true后重启。

14.  hadoop namenode –format。

15.  开启hadoop,开启spark。

16.  在局域网内搭虚拟集群:使用桥接方式(一台虚拟机相当于局域网中的物理机),在/etc/network/interfaces里修改IP地址、子网掩码、网关IP、DNS服务器与局域网在同一网段。


最终效果




开发环境搭建


1.   下载Eclipse JUNO(4.2版)

2.   下载Eclipse Scala IDE插件,http://download.scala-ide.org/sdk/e38/scala210/stable/。

3.   配置Eclipse。

4.   本地模式运行(仅开master):setAppName(“WordCount”)、Run Configuration里面的VM Option填-Dspark.master=local,Arguments里填输入数据所在路径。

5.   集群模式运行(master+slave):将scala源文件打包为jar,Terminal里输入~/spark-1.2.0-bin-hadoop1/bin/spark-submit--master spark://master:7077 --class WordCount --executor-memory 200m --driver-memory200m ~/WordCount.jar hdfs://master:9

000/user/hadoop/input(输入参数) hdfs://(输出参数)。

6.   本地模式运行时master可以分配2G内存,集群模式运行就分配1G。


0 0
原创粉丝点击