Hadoop伪分布式模式配置

来源:互联网 发布:网上做账软件 编辑:程序博客网 时间:2024/06/01 09:47

Hadoop伪分布式模式配置


相关配置文件修改

  • 修改core-site.xml:
$ sudo gvim /usr/local/hadoop/etc/hadoop/core-site.xml
<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration>    <property>        <name>fs.default.name</name>        <value>hdfs://localhost:9000</value>    </property>    <property>        <name>hadoop.tmp.dir</name>        <value>/home/hadoop/tmp</value>   </property></configuration>

常见配置项说明:

fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}这个路径中

  • 2修改hdfs-site.xml:
$ sudo gvim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration>    <property>        <name>dfs.replication</name>        <value>3</value>    </property></configuration>

常见配置项说明:

dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。

  • 3 修改mapred-site.xml:
$ sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml$ sudo gvim /usr/local/hadoop/etc/hadoop/mapred-site.xml
<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property></configuration>

常见配置项说明:

mapred.job.trackerJobTracker的主机(或者IP)和端口

  • 4 修改yarn-site.xml:
$ sudo gvim /usr/local/hadoop/etc/hadoop/yarn-site.xml
<configuration>    <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property>    <property>        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>        <value>org.apache.hadoop.mapred.ShuffleHandler</value>    </property></configuration>

常见配置项说明:

yarn.nodemanager.aux-services通过该配置,用户可以自定义一些服务

  • 5 修改hadoop-env.sh:
$ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

修改 JAVA_HOME 如下:
这里写图片描述
这样简单的伪分布式模式就配置好了。

格式化HDFS文件系统

  • 1先切换到hadoop账户,按照提示输入账户密码
$ su hadoop
  • 2 格式化HDFS文件系统
$ hadoop namenode -format

会输出如下信息,则表示格式化HDFS成功

DEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.INFO namenode.NameNode: STARTUP_MSG:/************************************************************STARTUP_MSG: Starting NameNodeSTARTUP_MSG:   host = [你的主机名]/127.0.0.1STARTUP_MSG:   args = [-format]STARTUP_MSG:   version = 2.4.1......INFO util.ExitUtil: Exiting with status 0INFO namenode.NameNode: SHUTDOWN_MSG:/************************************************************SHUTDOWN_MSG: Shutting down NameNode at [你的主机名]/127.0.0.1************************************************************/

在上面
DEPRECATED: Use of this script. to execute hdfs command is deprecated.
Instead use the hdfs command for it.
是由于Hadoop2.1.0以后hadoop 命令换成了hdfs命令,上面的命令如同下面的命令:

hdfs namenode -format // 这时就没有错误了,下文也是如此

Hadoop集群活动

  • 1 启动hdfs守护进程,分别启动NameNode和DataNode
$ hadoop-daemon.sh start namenode$ hadoop-daemon.sh start datanode

或者一次启动

$ start-dfs.sh

输出如下(可以看出分别启动了namenode, datanode, secondarynamenode,因为我们没有配置secondarynamenode,所以地址为0.0.0.0):

Starting namenodes on []hadoop@localhost's password:localhost: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-G470.outhadoop@localhost's password:localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-G470.outlocalhost: OpenJDK 64-Bit Server VM warning: You have loaded library /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.localhost: It's highly recommended that you fix the library with 'execstack -c <libfile>', or link it with '-z noexecstack'.Starting secondary namenodes [0.0.0.0]hadoop@0.0.0.0's password:0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-G470.out
  • 2 启动yarn,使用如下命令启ResourceManager和NodeManager:
$ yarn-daemon.sh start resourcemanager$ yarn-daemon.sh start nodemanager

或者一次启动

$ start-yarn.sh
  • 3 检查是否运行成功
    打开浏览器

    •输入:http://localhost:8088进入ResourceManager管理页面
    •输入:http://localhost:50070进入HDFS页面
    可能出现的问题及调试方法:


启动伪分布后,如果活跃节点显示为零,说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format重新格式化仍然无法正常启动,原因是/tmp中的文件没有清除,则需要先清除/tmp/hadoop/*再执行格式化,即可解决hadoop datanode无法启动的问题。具体步骤如下所示:
# 删除hadoop:/tmp$ hadoop fs -rmr /tmp# 停止hadoop$ stop-all.sh# 删除/tmp/hadoop*$ rm -rf /tmp/hadoop*# 格式化$ hadoop namenode -format# 启动hadoop$ start-all.sh

测试验证

  • 1 首先创建相关文件夹(要一步一步的创建)
$ hadoop dfs -mkdir /user$ hadoop dfs -mkdir /user/hadoop$ hadoop dfs -mkdir /user/hadoop/input
  • 2 创建输入的数据,采用/etc/protocols文件作为测试
    先将文件拷贝到 hdfs 上:
$ hadoop dfs -put /etc/protocols /user/hadoop/input

这里写图片描述

  • 3 执行Hadoop WordCount应用(词频统计)
# 如果存在上一次测试生成的output,由于hadoop的安全机制,直接运行可能会报错,所以请手动删除上一次生成的output文件夹$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount input output

这里写图片描述

  • 4 查看生成的单词统计数据
$ hadoop dfs -cat /user/hadoop/output/*

这里写图片描述

关闭服务

$ hadoop-daemon.sh stop namenode$ hadoop-daemon.sh stop datanode$ yarn-daemon.sh stop resourcemanager$ yarn-daemon.sh stop nodemanager

或者

$ stop-dfs.sh$ stop-yarn.sh
0 0
原创粉丝点击