hadoop伪分布式搭建&hadoop-example运行示例

来源:互联网 发布:仓库数据管理软件 编辑:程序博客网 时间:2024/05/20 10:54

hadoop伪分布式搭建

hadoop 伪分布式实在单击模式的基础上进行的,单击模式可以参考我的另外一片blog : http://blog.csdn.net/zhumingyuan111/article/details/53149642

配置 ~-site.xml文件

%HODOOP_HOME%/etc/hadoop/路径下有:core-site.xml,hdfs-site.xml,mapred-site.xml 三个文件,其含义:

  • core-site.xml: Hadoop Core的配置项,例如HDFS和MapReduce常用的I/O设置等。
  • hdfs-site.xml: Hadoop 守护进程的配置项,包括namenode,辅助namenode和datanode等。
  • mapred-site.xml: MapReduce 守护进程的配置项,包括jobtracker和tasktracker。
    下面给出三个文夹的配置内容:

core-site.xml

<configuration>   <property>        <name>fs.default.name</name>        <value>hdfs://localhost:9000</value>  </property>  <property>      <name>hadoop.tmp.dir</name>      <value>/usr/local-extend/hadoop_hdfs/tmp</value>  </property></configuration>

hdfs-site.xml

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>            <name>dfs.namenode.name.dir</name>            <value>file:/usr/local/hadoop/hdfs/name</value>        </property>        <property>            <name>dfs.datanode.data.dir</name>            <value>file:/usr/local/hadoop/hdfs/data</value>        </property></configuration>

mapred-site.xml

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

新建几个文件夹用于存储namenode&datanode&hadoop.tmp.dir

建立文件夹的位置分别与core-site.xml、hdfs-site.xml中配置一致。
/usr/local-extend/hadoop_hdfs/tmp
file:/usr/local/hadoop/hdfs/name
file:/usr/local/hadoop/hdfs/data

mkdir /usr/local-extend/hadoop_hdfs/tmpmkdir /usr/local/hadoop/hdfsmkdir /usr/local/hadoop/hdfs/namemkdir /usr/local/hadoop/hdfs/data

格式化HDFS

主要就是格式化namenode,secondarynamenode,tasktracker
在%HADOOP_HOME%/bin下执行:

hadoop namenode -format

这里写图片描述

这里写图片描述

  • 注意如果是第二次格式化,/usr/local/hadoop/hdfs/name 和/usr/local/hadoop/hdfs/data 两个文夹下的VERSION中的cluster要保证一致,否则datanode节点无法启动。

    启动hadoop

    路径%HADOOP_HOME%/sbin

    /usr/local/hadoop/sbin$ ./start-all.sh

    查看hadoop守护进程

    /usr/local/hadoop/sbin$ jps

    出现下图则表示安装成功
    这里写图片描述

如果安装成功之后,可以访问以下web
http://localhost:50030/ - Hadoop 管理介面
http://localhost:50060/ - Hadoop Task Tracker 状态
http://localhost:50070/ - Hadoop DFS 状态

此时hadoop已经安装成功,可以对hdfs进行相关操作

创建文件夹 : /usr/local/hadoop/bin$ hdfs dfs -mkdir /usr/tmp/input存放文件:/usr/local/hadoop/bin$ hdfs dfs -put test.txt /usr/tmp/input

运行hadoop自带的例子

/usr/local/hadoop/bin$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /usr/tmp/input /usr/tmp/output

这里写图片描述

这里写图片描述

查看输出文件

/usr/local/hadoop/bin$ hdfs dfs -get /usr/tmp/output
 /usr/local/hadoop/bin$ vim part-r-00000 

这里写图片描述

关闭Hadoop的守护进程

/usr/local/hadoop/sbin$ ./stop-all.sh 

总结

      以上基本把hadoop伪分布的情况搭建完成,后续在此基础上进行spark的环境搭建。
原创粉丝点击