Hadoop执行DistributedGrep
来源:互联网 发布:彩虹六号围攻n卡优化 编辑:程序博客网 时间:2024/04/20 07:50
(1)拷入数据
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.replication
1 dfs.name.dir
1 dfs.file
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250 hdfs://node14:9000/user/hadoop/inputDir1
126 hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007 grep-search 完成grep
(2) job_201204271504_0008 grep-sort 对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?
(6) job_201204271504_0007日志分析
共16个Map Task (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721
Map output records 12
Combine input records 12
Combine output records 9
Shuffled Maps 16 //参与Shuffled的Map task数目
Reduce input records 0 9
Reduce output records 0 9
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'
(3)监控过程
(4)查看结果
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.replication
1 dfs.name.dir
1 dfs.file
1 dfs.data.dir
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250 hdfs://node14:9000/user/hadoop/inputDir1
126 hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007 grep-search 完成grep
(2) job_201204271504_0008 grep-sort 对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?
(6) job_201204271504_0007日志分析
共16个Map Task (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721
Map output records 12
Combine input records 12
Combine output records 9
Shuffled Maps 16 //参与Shuffled的Map task数目
Reduce input records 0 9
Reduce output records 0 9
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:
Start Time / Shuffle Finished / Sort Finished / Finish Time
- Hadoop执行DistributedGrep
- Hadoop执行shell脚本
- hadoop mapreduce执行流程
- Hadoop执行过程
- hadoop 执行问题解决
- Hadoop执行本地命令
- hadoop CLASSNAME的执行
- Hadoop执行过程
- hadoop mapreduce执行流程
- hadoop执行wordcount例子
- 多轮hadoop任务执行
- Eclipse执行Hadoop WordCount
- hadoop 执行Wordcount详解
- Hadoop之推测执行
- hadoop task的执行
- Linux执行 Hadoop WordCount
- hadoop mapTask执行过程
- hadoop 队列 执行 引擎
- outlook各种问题一路下来
- 优秀的程序员
- win7设置JDK环境变量
- poj 1035
- 基于Java多线程的下载器源码剖析(三)
- Hadoop执行DistributedGrep
- foxmail替代outlook完成邮件管理、时间管理(谷歌日历同步)、rss订阅
- 从设计的角度讨论Java中线程的两种创建方式
- 开源软件清除了“开源”和“商业”之间的障碍——商业软件、开源软件和自由软件的区别
- 用单链表实现stack
- 树表查找之二叉排序树
- tbr tbn tbc
- android:SDL init failure, reason is: No available video device
- 四则运算,简单的,只有个位数加减