Spark(1.6.1)与Hadoop(2.6.0)搭建
来源:互联网 发布:dnf网络不稳定 编辑:程序博客网 时间:2024/04/29 22:12
安装操作系统
本人的操作系统是安装在VMware vSphere下的ubuntu15.04操作系统,在安装过程中有以下三点需要注意:
1.在安装系统时,需要先将网络Disconnect,否则可能安装系统失败。
2.系统安装完成后,调整IP(先自动获取ip,然后使用ifconfig命令查看ip)以及DNS地址(210.28.18.30)。
3.设置root用户登录,具体操作如下:
1)打开终端使用gedit程序打开/usr/share/lightdm/lightdm.conf.d/50-ubuntu.conf,增加如下内容。
greeter-show-manual-login=true
2)gedit进入/root/.profile中,将“mesg n”修改为“tty -s && mesg n”
3)gedit进入/etc/hostname,修改主机名。
4)gedit进入/etc/hosts,修改IP和主机名映射。
上传文件以及部分环境安装
1.由于在Linux系统下较难安装VMware Tools,因此使用FileZilla上传下载文件,这需要Linux系统安装OpenSSH。打开终端,输入:
apt-get install openssh-server
2.将下载好的文件(Jdk,Hadoop,Spark,Scala等)上传到系统中(或直接在ubuntu系统中下载),使用的协议是sftp,注意这个时候连接使用的用户名密码是管理员用户的(安装系统时候设置的用户),使用root用户是无法建立连接的。
3.解压Jdk,Hadoop,Scala和Spark,并将环境变量写入~/.bashrc和/etc/profile中,内容如下:
~/.bashrc
export JAVA_HOME=/home/yiwei/jdk/jdk1.8.0_73 export JRE_HOME=${JAVA_HOME}/jre export SCALA_HOME=/home/yiwei/scala/scala-2.11.8 export CLASS_PASS=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export HADOOP_HOME=/home/yiwei/hadoop/hadoop-2.6.0 export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SCALA_HOME}/bin:$PATH
/etc/profile
export JAVA_HOME=/home/yiwei/jdk/jdk1.8.0_73 export JRE_HOME=${JAVA_HOME}/jre export SCALA_HOME=/home/yiwei/scala/scala-2.11.8 export HADOOP_HOME=/home/yiwei/hadoop/hadoop-2.6.0 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SCALA_HOME}/bin:$PATH export CLASSPATH=$CLASSPATH:.:JAVA_HOME/lib:$JAVA_HOME/jre/lib
4.使用source命令更新~/.bashrc和/etc/profile。
5.配置ssh免密码登录,需要执行的命令如下:
ssh-keygen cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ssh的原理图如下
Hadoop的设置
1.首先在修改hadoop-env.sh声明jdk路径
export JAVA_HOME=/home/yiwei/jdk/jdk1.8.0_73
2.修改core-site.xml,主要指定HDFS中namenode的通信地址
<configuration> <property> <!--namenode的通信地址--> <name>fs.defaultFS</name> <value>hdfs://172.18.128.65:9000</value> </property> <property> <!--临时文件地址--> <name>hadoop.tmp.dir</name> <value>/opt/tmp</value> </property> <property> <name>hadoop.proxyuser.hduser.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.hduser.groups</name> <value>*</value> </property> </configuration>
3.修改hdfs-site.xml,主要设置HDFS中文件的副本数
<configuration> <property> <!--hdfs副本数--> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>
4.将mapred-site.xml.template 重命名为mapred-site.xml,主要设置框架MapReduce使用YARN
<configuration> <property> <!--MR使用YARN进行调度--> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5.修改yarn-site.xml,主要设置Reducer取数据的方式是mapreduce_shuffle
<configuration> <!-- Site specific YARN configuration properties --> <property> <!--reducer取数据的方式是mapreduce_shuffle--> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <!--yarn resourcemanager host--> <name>yarn.resourcemanager.hostname</name> <value>172.18.128.65</value> </property> </configuration>
6.第一次使用的时候需要格式化HDFS,即在终端中输入
hadoop namenode -format
这个时候Hadoop的设置完成,使用start-all.sh命令启动Hadoop,然后输入jps,如果出现如下内容即可验证是否成功设置
7245 NameNode 10731 Jps 7577 SecondaryNameNode 7847 NodeManager 7726 ResourceManager 7396 DataNode
Spark安装
下载Scala,并解压到任意文件夹,并在环境变量中添加SCALA_HOME环境变量。
将环境变量写入~/.bashrc和/etc/profile中。
Spark的设置
在Spark的根目录下需要设置三个文件即可,即spark-env.sh、spark-defaults.conf、slaves。其修改的内容如下:
spark-env.sh
JAVA_HOME=/home/yiwei/jdk/jdk1.8.0_73 SCALA_HOME=/home/yiwei/scala/scala-2.11.8 HADOOP_CONF_DIR=HADOOP_HOME=/home/yiwei/hadoop/hadoop-2.6.0 SPARK_MASTER_IP=172.18.128.65 SPARK_MASTER_PORT=7077 SPARK_MASTER_WEBUI_PORT=8080 SPARK_WORKER_CORES=2 SPARK_WORKER_MEMORY=6g SPARK_WORKER_PORT=7078 SPARK_WORKER_WEBUI_PORT=8081 SPARK_WORKER_INSTANCES=1
这里前面一部分主要设置了Jdk、Scala和Hadoop的位置
后面一部分设置了Master的IP、端口、WEB UI端口和Worker的工作核心数、工作内存大小、端口、WEB UI端口和实例数目
spark-defaults.conf
spark.master spark://alex:7077
这里主要设定了Spark Master的URL
slaves
172.18.128.65
启动集群
1)在Spark根目录启动Spark
./sbin/start-all.sh
输入jps如果出现如下内容即可验证是否成功设置
9625 Master 9730 Worker
2)关闭Spark
./sbin/stop-all.sh
另外,Hadoop和Spark还有一些Web UI,其中我们之前设置了Spark Master的Web UI为8080端口,我们平时会用到的端口地址如下:
WEB UI
PORT
YARN
8088
HDFS
50070
MASTER
8080
JOBS
4040
我们访问的话,只需要在浏览器中输入本机地址+端口号即可,例如浏览器中输入172.18.128.65:50070,即可访问HDFS文件系统
0 0
- Spark(1.6.1)与Hadoop(2.6.0)搭建
- Hadoop-2.2.0搭建Spark-1.3.1
- Hadoop与Spark平台搭建心得
- 【hadoop+spark】搭建spark过程
- Spark-1.6.1 Hadoop-2.6.4 VMware Ubuntu 分布式集群搭建 全过程
- Spark-1.6.1 Hadoop-2.6.4 VMware Ubuntu 分布式集群搭建 全过程
- Spark入门 - 1 搭建Hadoop分布式集群
- 搭建spark-hadoop集群
- hadoop+spark集群搭建
- Hadoop+Spark集群搭建
- Hadoop/Spark平台搭建
- hadoop spark 环境搭建
- Spark+Hadoop环境搭建
- Hadoop&Spark搭建
- Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.3.1+Hbase-1.1.0+Hive-1.2.0集群搭建
- hadoop | spark | hadoop的搭建和spark 的搭建
- Hadoop+Spark+Zookeeper 集群搭建
- 搭建hadoop/spark集群环境
- flask笔记:7:用户资料信息页和头像
- 党威
- 静态工厂模式
- java类似QQ的聊天室程序的实现(下)(服务器端程序)
- java--异常与文件处理
- Spark(1.6.1)与Hadoop(2.6.0)搭建
- TimeUnit和String之前相互转化
- 抽象类abstract详解
- 第十一周项目一 类的继承填空
- PHOTOSHOP常用快捷键大全
- python的disutils创建分发包
- vim中使用ctags工具
- 打字练习。。。。提升了点 不过还是很慢。。。。
- 读研如何提高技术之我见 (转)