hadoop 实战———WordCount源码分析

来源：互联网发布：cvf命令报错 linux 编辑：程序博客网时间：2024/05/09 01:44

一：实例描述

计算出文件中各个单词到频数。要求输出结果按照单词字母顺序进行排序。每个单词和其频数占一行，用间隔分开。

二：设计原理

将文件内容切分成单词,然后把所以相同的单词聚集在一起。

由hadoop的MapReduce框架可以在Map阶段完成单词的切分工作，在Reduce阶段完成聚集工作。

MapReduce中传递的数据都是<key，value>形式，在Reduce中排序也是按照key进行的。所以将Map

的输出设计成由word作为key，1作为value的形式，来表示单词word出现了1次(Map的输入采用hadoop

默认方式，行号作为key，文件一行作为value), Reduce的输入是Map输出聚合的结果，即<key，value-list> ,

比如 <word,{1,1,1,1.......}>,Reduce的输出设计成与Map输出相同的形式，后面的数字即为 value-list 的累计和。也就所对应的频数。

三 : 例程代码(参考Hadoop实战)：

实验环境：hadoop-1.2.1 jdk1.7.0_45 ubuntu13.10

https://github.com/sunnybird/hadoop/blob/master/WordCount.java

0 0