hadoop程序开发实践——简单程序

来源：互联网发布：淘宝代理买吃的要证吗编辑：程序博客网时间：2024/06/01 09:24

本篇在hadoop上实践了几个hadoop程序。

分别是：词频统计（wordcount）、数据去重、数据排序、平均成绩、单表关联、多表关联、倒排索引。

对hadoop程序的运行机制，特别是mapreduce的运行过程、接口规范、shuffle有了进一步了解。

对mapper、combine、reducer三个重要函数进行了重写。

对输入输出文件夹input、output文件的删除、更新、上载下载有了实践操作。

程序一：wordcount.hadoop的hello world程序。

程序二：depulication.数据去重。对多个文件中，重复的数据及整理，只输出出现一次的数据。

程序三：sort.数据排序。对多个文件中的数据，进行排序，输出到一个文件中，并给出数据在原文件位次。

程序四：singleTableCorrelation.单表关联。对单个文件内的数据关联进行挖掘，输出有关系的数据组合。

程序五：doubleTableCorrelation.多表关联。对多个文件内，数据之间的关系进行挖掘，输出有关系的数据之间的组合。它是单表关联的扩展，逻辑上更加清晰。

程序六：average.平均值。对多个文件内，同一个人、商品的多个维度的值求均值。输出一个列出所有人、商品平均值的文件。

程序七：invertedindex:倒排索引。倒排索引是文件检索系统常用的数据结果，能够快速找出与查找字符相关的文件。

小结：

hadoop编程主要集中在map、combine、reduce三个函数的编写。

hadoop需要经常读写文件，所以效率并不高。

优点是能够利用hadoop集群，实现高吞吐量。

参考文章：

1、http://penghuaiyi.iteye.com/blog/1943464（详细列出了上述程序的源码java实现，思路、相关input\output文件）

0 0