测试hadoop

来源：互联网发布：linux ntp 同步命令编辑：程序博客网时间：2024/05/15 12:20

   配置完hadoop后，就要开始测试hadoop，用hadoop来计算PI值和计算单词数（圆周率的值和wordcount）

一、“hadoop version”

用本命令可以来看hadoop是否已经完全配置好，并且查看自己的版本号
这里写图片描述

二、成功启动后，可以访问 Web 界面“http://localhost:50070”查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件

这里写图片描述

早期版本的页面都在这个页面之中，再也不用去输入那么多50030和9000等网址了。

三、测试圆周率

命令：“hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 10000”

这里写图片描述

尽管这里算的不太精确，但是着实兴奋，因为终于将它算出来了！其原理还尚未了解，有人能解答一下没？

四、hadoop 运行wordcount

4.1“hadoop fs -mkdir /input”
在HDFS中创建input文件目录
hadoop:为程序名称
fs: 程序带的一个参数，这个参数主要表示要操作的是fs文件系统
-put: 程序带的一个参数，这个参数表示要将“上传”这个动作
/input: 这个参数表示上传文件的目的地址(路径)，此时上传至hdfs的主目录下的in目录中

4.2”hadoop fs -put README.txt /input”
我当前在hadoop的目录下，有个README.txt的文件，把它放到hdfs的input目录下面

4.3”hadoop fs -ls /input”
查看文件是否正确传入到/input目录下
这里写图片描述

4.4”hadoop fs -cat /input/README.txt”
查看文件内容

4.5”hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output”

开始执行

Hadoop命令会启动一个JVM来运行这个MapReduce程序，并自动获得Hadoop的配置，同时把类的路径（及其依赖关系）加入到Hadoop的库中。以上就是Hadoop Job的运行记录，从这里可以看到，这个Job被赋予了一个ID号：job_201202292213_0002，而且得知输入文件有两个（Total input paths to process : 2），同时还可以了解map的输入输出记录（record数及字节数），以及reduce输入输出记录。

已经执行成功

4.6“hadoop fs -ls /output”
查看输出结果的目录
这里写图片描述
注意，这是五个0

4.7“hadoop fs -cat /output/part-r-00000”
查看输出结果，这边只截取一部分。
这里写图片描述

结果就是对README.txt文件中单词进行计数统计了，到这就运行完成了。
这时就可以把这个example导入了eclipse中去试试啦。

总结：
完成了这两个实验，已经达到自己预期的要求，但是只在单个机子上的伪分布式还是太浅，下周该用eclipes来写代码，找几组数据来做测试，以及在真实的服务器中来搭建真正的分布式平台

0 0