简单验证hadoop的wordcount

来源:互联网 发布:淘宝售假会怎么样 编辑:程序博客网 时间:2024/05/23 00:09

1、执行hadoop中的wordcount,得出一结果。

2、对于某个指定单词在ubuntu中的文件所在目录下执行:grep  指定单词  所有统计文件|wc

实际上就是linux/unix平台的ls指令:

A、 ls | grep filename   查询文件名包含filename   的文件(这其实就是一个map,找到需要的数据)

B、 ls | grep filename   | wc -l 计算上述指令查询文件个数(这其实就是一个reduce,对找到数据进行汇总聚合)

又如SQL中的select 语句:

C、 select * from table t where t.name like 'tht%'  (这其实就是一个map,找到需要的数据)

D、 select count(*) from table t where t.name like 'tht%' (这其实就是一个reduce,对找到数据进行汇总聚合)

下面这个SQL的例子在hive中就是通过mapreduce实现的,C为一个map任务 D为一个reduce任务

0 0