Hadoop的简单实例和遇到的问题

来源:互联网 发布:ubuntu 修复win7引导 编辑:程序博客网 时间:2024/06/15 06:43

最近我在学hadoop,下面是我自己实践过的一些简单的实例,有最基本的单词计数(wordcount),数据去重,排序,单表关联和多表关联。

单词计数:大家应该都知道这个程序,就相当于java里面的第一个hello world程序一样,是hadoop中最基本的一个入门程序,是用来统计单词的个数,然后以(单词名,个数)的形式输出在文件里;

数据去重:让原始数据中出现次数超过一次的数据在输出文件中只出现一次;

排序:是对原始数据进行排序,比如数字从小到大排序,字符串按首字母的字母表顺序排序;

单表关联:从给出的数据中寻找出自己关心的数据,对原始数据所包含信息的挖掘,只针对一张表数据;

多表关联:跟单表关联类似,但是是针对两张表数据。

大家想要相关的实例从这个连接下载http://download.csdn.net/detail/chenyuangege/8713825


注意;在进行实例测试的时候,对输入文件的数据一定不要多出换行符和空格,我就是由于在一个输入文件中多出了两个换行和几个空格符导致代码不能输出正确的结果,把自己坑了半天。

1 0
原创粉丝点击