Hadoop MapReduce Streaming小实验:单词计数
来源:互联网 发布:从零开始学淘宝开店 编辑:程序博客网 时间:2024/05/16 00:57
Hadoop MapReduce Streaming小实验:单词计数
输入:单词列表文件,里边的部分单词会重复,每个单词以换行分开。
good
sun
apple
sun
……
mapper程序:利用AWK脚本再每个单词后边添加TAB和“1”。此时,单词是key,数字“1”是value,代表单词出现了一次,key和value之间用tab分开。
#!/usr/bin/awk -f
{printf("%s\t1\n", $0)}
map阶段的输出:
good 1
Sun 1
apple 1
Sun 1
shuffle阶段后的ruduce输入:
apple 1
good 1
sun 1
sun 1
reducer程序:利用awk脚本将每个单词后边的value累加,并作为该单词的出现次数输出。
#!/usr/bin/awk -f
BEGIN {FS="\t"}
{count[$1]=count[$1]+$2;
}
END {
for (onein count) print one "\t" count[one]
}
hadoop任务执行命令:此处利用了hadoopstreaming。
hadoop jar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input $IN -output $OUT -mappermap.awk -reducer reducer.awk -file map.awk reducer.awk
最终输出结果:
apple 1
good 1
sun 2
……
阅读全文
0 0
- Hadoop MapReduce Streaming小实验:单词计数
- Hadoop之MapReduce单词计数经典实例
- Hadoop之MapReduce改进的计数单词(八)
- hadoop单词计数代码
- hadoop单词计数
- 单词计数的mapreduce原理
- MapReduce之WordCount单词计数
- hadoop入门(六)JavaAPI+Mapreduce实例wordCount单词计数详解
- hadoop 打包运行 单词计数
- python实现单词计数的mapreduce
- MapReduce入门级之WordCount单词计数
- MapReduce之WordCount单词计数(上)
- MapReduce之WordCount单词计数(下)
- 【Hadoop基础教程】5、Hadoop之单词计数
- 【Hadoop基础教程】Hadoop之单词计数wordcount
- Hadoop入门基础教程 Hadoop之单词计数
- 在Hadoop中使用Streaming编写MapReduce
- 用Bash Script编写Hadoop MapReduce Streaming
- 快速排序
- Android Scroll分析
- sublime text3 安装及python环境搭建
- 关于字符数组的关系
- 二级指针
- Hadoop MapReduce Streaming小实验:单词计数
- HTML+CSS基础(CSS篇上)
- HTML+CSS基础(CSS篇下)
- 最短路径—Dijkstra算法和Floyd算法
- windows下python第三方扩展包
- PHP判断用户的设备是否是移动设备
- MYSQL之pt-query-digest查询日志分析工具
- Linux下搭建Web项目运行环境Tomcat+Mysql+Jdk
- 记一次项目升级经历