测试hadoop

来源:互联网 发布:linux ntp 同步命令 编辑:程序博客网 时间:2024/05/15 12:20
   配置完hadoop后,就要开始测试hadoop,用hadoop来计算PI值和计算单词数(圆周率的值和wordcount)

一、“hadoop version

用本命令可以来看hadoop是否已经完全配置好,并且查看自己的版本号
这里写图片描述

二、成功启动后,可以访问 Web 界面“http://localhost:50070”查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件

这里写图片描述

早期版本的页面都在这个页面之中,再也不用去输入那么多50030和9000等网址了。

三、测试圆周率

命令:“hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 10000

这里写图片描述这里写图片描述这里写图片描述

尽管这里算的不太精确,但是着实兴奋,因为终于将它算出来了!其原理还尚未了解,有人能解答一下没?

四、hadoop 运行wordcount

4.1“hadoop fs -mkdir /input
在HDFS中创建input文件目录
hadoop:为程序名称
fs: 程序带的一个参数,这个参数主要表示要操作的是fs文件系统
-put: 程序带的一个参数,这个参数表示要将“上传”这个动作
/input: 这个参数表示上传文件的目的地址(路径), 此时上传至hdfs的主目录下的in目录中

4.2”hadoop fs -put README.txt /input
我当前在hadoop的目录下,有个README.txt的文件,把它放到hdfs的input目录下面

4.3”hadoop fs -ls /input
查看文件是否正确传入到/input目录下
这里写图片描述

4.4”hadoop fs -cat /input/README.txt
查看文件内容

4.5”hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

开始执行
开始执行
Hadoop命令会启动一个JVM来运行这个MapReduce程序,并自动获得Hadoop的配置,同时把类的路径(及其依赖关系)加入到Hadoop的库中。以上就是Hadoop Job的运行记录,从这里可以看到,这个Job被赋予了一个ID号:job_201202292213_0002,而且得知输入文件有两个(Total input paths to process : 2),同时还可以了解map的输入输出记录(record数及字节数),以及reduce输入输出记录。

执行成功
执行成功
已经执行成功

4.6“hadoop fs -ls /output
查看输出结果的目录
这里写图片描述
注意,这是五个0

4.7“hadoop fs -cat /output/part-r-00000
查看输出结果,这边只截取一部分。
这里写图片描述这里写图片描述这里写图片描述

结果就是对README.txt文件中单词进行计数统计了,到这就运行完成了。
这时就可以把这个example导入了eclipse中去试试啦。

总结:
完成了这两个实验,已经达到自己预期的要求,但是只在单个机子上的伪分布式还是太浅,下周该用eclipes来写代码,找几组数据来做测试,以及在真实的服务器中来搭建真正的分布式平台

0 0
原创粉丝点击