Spark学习之Hadoop安装与测试

来源:互联网 发布:科目三模拟驾驶软件 编辑:程序博客网 时间:2024/03/29 03:45

Spark是跑在Hadoop上(依赖YARN和HDFS)的内存计算引擎,内置了多种丰富组件如Spark SQL、Spark Stream等,是大数据分析挖掘的一种技术趋势。本文为学习Spark技术的第一篇日志,主要记录了Hadoop环境的搭建、安装与测试。

资源准备

操作系统:CentOS 7 ;JDK:1.7;Hadoop版本:hadoop-2.6.0.tar.gz(使用编译好的,而非源码)

安装JDK

此类教程网上较多,不再累述。仅仅提一下需要在环境变量中设置JAVA_HOME。

[root@cent128 ~]# vi /etc/bashrc

在此文件末尾追加export JAVA_HOME=/usr。"/usr"根据实际路径修改。最后执行如下命令使设置立即生效。

[root@cent128 ~]# source /etc/bashrc 

安装Hadoop

将Hadoop解压到/usr/local/目录下。

[root@cent128 ~]# tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中[root@cent128 ~]# cd /usr/local/[root@cent128 local]# cd ./hadoop-2.6.0/[root@cent128 hadoop-2.6.0]# ./bin/hadoop version

Hadoop单机配置(非分布式)

Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子包括 wordcount、terasort、join、grep 等。

[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar    # 可以看到所有的例子

运行Hadoop单机配置

在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中

[root@cent128 hadoop-2.6.0]# mkdir ./input/[root@cent128 hadoop-2.6.0]# cp ./etc/hadoop/*.xml ./input/[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep ./input ./output 'dfs[a-z.]+'[root@cent128 hadoop-2.6.0]# cat ./output/*          # 查看运行结果

Hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。在设置 Hadoop 伪分布式配置前,我们还需要设置 HADOOP 环境变量,执行如下命令在 /etc/bashrc 中设置,保存后,不要忘记执行source命令使配置生效。

export HADOOP_HOME=/usr/local/hadoop-2.6.0export HADOOP_INSTALL=$HADOOP_HOMEexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport YARN_CONF_DIR=$HADOOP_CONF_DIRexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

这些变量在启动 Hadoop 进程时需要用到,不设置的话可能会报错(这些变量也可以通过修改 ./etc/hadoop/hadoop-env.sh 实现)。Hadoop 的配置文件位于 /usr/local/hadoop-2.6.0/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 core-site.xml ,如下:

<configuration>    <property>        <name>hadoop.tmp.dir</name>        <value>file:/usr/local/hadoop-2.6.0/tmp</value>        <description>Abase for other temporary directories.</description>    </property>    <property>        <name>fs.defaultFS</name>        <value>hdfs://Cent128:9000</value>    </property></configuration>

修改配置文件 hdfs-site.xml ,如下:

<configuration><property>    <property>        <name>dfs.replication</name>        <value>1</value>    </property>    <property>        <name>dfs.namenode.name.dir</name>        <value>file:/usr/local/hadoop-2.6.0/tmp/dfs/name</value>    </property>    <property>        <name>dfs.datanode.data.dir</name>        <value>file:/usr/local/hadoop-2.6.0/tmp/dfs/data</value>    </property></configuration>

配置完成后,执行 NameNode 的格式化。成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错。

[root@cent128 hadoop-2.6.0]# ./bin/hdfs namenode -format

接着开启 NaneNode 和 DataNode 守护进程。若出现如下 SSH 的提示 “Are you sure you want to continue connecting”,输入 yes 即可。

[root@cent128 hadoop-2.6.0]# ./sbin/start-dfs.sh

启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode”和SecondaryNameNode(如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试)。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。

成功启动后,可以访问 Web 界面 http://Cent128:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

运行Hadoop伪分布式配置

上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。

[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -mkdir -p /user/root    # 在HDFS文件系统上位root用户创建root文件夹[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -mkdir input[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -put ./etc/hadoop/*.xml input[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -ls input[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -cat output/* # 查看运行结果

运行 Hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。

启动YARN

(伪分布式不启动 YARN 也可以,一般不会影响程序执行)有的读者可能会疑惑,怎么启动 Hadoop 后,见不到书上所说的 JobTracker 和 TaskTracker,这是因为新版的 Hadoop 使用了新的 MapReduce 框架(MapReduce V2,也称为 YARN,Yet Another Resource Negotiator)。YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度。YARN 运行于 MapReduce 之上,提供了高可用性、高扩展性,YARN 的更多介绍在此不展开,有兴趣的可查阅相关资料。上述通过 ./sbin/start-dfs.sh 启动 Hadoop,仅仅是启动了 MapReduce 环境,我们可以启动 YARN ,让 YARN 来负责资源管理与任务调度。

首先修改配置文件 mapred-site.xml,这边需要先进行重命名,并修改内容。

[root@cent128 hadoop-2.6.0]# mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property></configuration>
0 0
原创粉丝点击