Hadoop入门实例——WordCount统计单词

来源：互联网发布：lua web 知乎' 编辑：程序博客网时间：2024/06/05 09:33

首先要说明的是运行Hadoop需要jdk1.6或以上版本，如果你还没有搭建好Hadoop集群，请参考我的另一篇文章：

Linux环境搭建Hadoop伪分布模式

马上进入正题。

1.启动Hadoop集群，使用jps查看所有结点是否启动成功；

2.进入hadoop的bin目录，查看hadoop中的例程

运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定；

3.试图运行wordcount，./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount

显示出参数列表为：wordcount <in> <out>，所以我们要指定分布式文件的输入、输出目录；

4.创建输入目录

在bin目录下运行：./hadoop dfs -mkdir /home/hadoop/input （本地的mkdir可能不可用）

5.下载几篇英文文章(txt最好)，放入刚刚创建的输入目录

我使用的是window下的虚拟机，可以用xftp将本地文件上传到Linux服务器，很方便。。

./hadoop dfs -put input/* /home/hadoop/input

(注：第一个目录是你存放文章的本地目录，*通配符，表示该目录下的所有文档，

第二个目录是你的分布式文件系统的输入目录)

查看测试文件：./hadoop dfs -ls /home/hadoop/input

6.运行，每次运行前请先删除输出目录，因为他是自动生成的；

或者每次都创建一个新的目录，否则会运行失败。

./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output

7.查看单词统计结果，默认生成的文件part-r-00000

./hadoop dfs -cat /home/hadoop/output/part-r-00000

我选择的是一篇经济学论文，这个就是部分结果了。

开心！！！

0 0