Hadoop执行DistributedGrep

来源：互联网发布：彩虹六号围攻n卡优化编辑：程序博客网时间：2024/04/20 07:50

(1)拷入数据

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1

(2)启动执行
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'

(3)监控过程

(4)查看结果

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.replication
1 dfs.name.dir
1 dfs.file

1 dfs.data.dir

(5)查看输入输出文件大小
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250 hdfs://node14:9000/user/hadoop/inputDir1
126 hdfs://node14:9000/user/hadoop/outputDir1
说明：
读输入日志或者web端监控作业执行，发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007 grep-search 完成grep
(2) job_201204271504_0008 grep-sort 对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入？

(6) job_201204271504_0007日志分析
共16个Map Task (因为conf包含了16个文件，每个文件一个task)：
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721
Map output records 12

Combine input records 12
Combine output records 9

Shuffled Maps 16 //参与Shuffled的Map task数目

Reduce input records 0 9
Reduce output records 0 9
-------------------------------------------------------------------------------------
1个Reduce Task，在node15上执行，有四个时间点：

Start Time / Shuffle Finished / Sort Finished / Finish Time