hadoop 实战———WordCount源码分析
来源:互联网 发布:cvf命令报错 linux 编辑:程序博客网 时间:2024/05/09 01:44
一:实例描述
计算出文件中各个单词到频数。要求输出结果按照单词字母顺序进行排序。每个单词和其频数占一行,用间隔分开。
二:设计原理
将文件内容切分成单词,然后把所以相同的单词聚集在一起。
由hadoop的MapReduce框架可以在Map阶段完成单词的切分工作,在Reduce阶段完成聚集工作。
MapReduce中传递的数据都是<key,value>形式,在Reduce中排序也是按照key进行的。所以将Map
的输出设计成由word作为key,1作为value的形式,来表示单词word出现了1次(Map的输入采用hadoop
默认方式,行号作为key,文件一行作为value), Reduce的输入是Map输出聚合的结果,即<key,value-list> ,
比如 <word,{1,1,1,1.......}>,Reduce的输出设计成与Map输出相同的形式,后面的数字即为 value-list 的累计和。也就所对应的频数。
三 : 例程代码(参考Hadoop实战):
实验环境:hadoop-1.2.1 jdk1.7.0_45 ubuntu13.10
https://github.com/sunnybird/hadoop/blob/master/WordCount.java
0 0
- hadoop 实战———WordCount源码分析
- Hadoop入门—WordCount代码分析
- HADOOP中WORDCOUNT源码分析
- hadoop之WordCount源码分析
- Hadoop与Spark算法分析(一)——WordCount
- hadoop入门——wordcount
- Hadoop之MapReduce—Wordcount
- Hadoop学习笔记-WordCount源码分析
- hadoop编程实战——日志分析
- Hadoop之wordcount源码分析和MapReduce流程分析
- Hadoop——wordcount运行解析
- 第一个Hadoop程序——WordCount
- Hadoop之MapReduce—Wordcount扩展
- Hadoop WordCount源码解读
- hadoop WordCount源码
- 理解Hadoop源码 --- WordCount
- hadoop wordcount源代码分析
- hadoop wordcount源代码分析
- How To Implement Search Bar in iOS 7 Using Storyboard
- dynamic_cast & static_cast
- python中的异常处理
- NYOJ480 Fibonacci Again!
- 堆与堆排序
- hadoop 实战———WordCount源码分析
- 左手画方右手画圆代码
- 图像处理和图像识别中常用的OpenCV函数
- STM32F4--FLASH读写demo
- 企业综合管理系统 V1.0 版本 使用说明
- 什么是摩尔定律
- 【精品】互联网常见的十八种营销方式
- 贪吃蛇--集合的应用
- cocos2d-x 架构 和 目录结构