Hadoop Streaming 实战: 二次排序
来源:互联网 发布:中国移动免费上网软件 编辑:程序博客网 时间:2024/05/16 15:00
我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。
使用方法:
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
一般配合:
-D map.output.key.field.separator及-D num.key.fields.for.partition使用。
map.output.key.field.separator指定key内部的分隔符
num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key
示例:
1. 编写map程序mapper.sh;reduce程序reducer.sh; 测试数据test.txt
mapper.sh:
#!/bin/sh cat
reducer.sh:
#!/bin/sh sort
test.txt内容:
1,2,1,1,1
1,2,2,1,1
1,3,1,1,1
1,3,2,1,1
1,3,3,1,1
1,2,3,1,1
1,3,1,1,1
1,3,2,1,1
1,3,3,1,1
2. 测试数据test.txt放入hdfs,运行map-reduce程序
$ hadoop streaming /
-D stream.map.output.field.separator=, /
-D stream.num.map.output.key.fields=4 /
-D map.output.key.field.separator=, /
-D num.key.fields.for.partition=2 /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /
-input /app/test/test.txt /
-output /app/test/test_result /
-mapper ./mapper.sh /
-reducer ./reducer.sh /
-file mapper.sh /
-file reducer.sh /
-jobconf mapre.job.name="sep_test"
$ hadoop fs –cat /app/test/test_result/part-00003
1,2,1,1 1
1,2,2,1 1
1,2,3,1 1
$ hadoop fs –cat /app/test/test_result/part-00004
1,3,1,1 1
1,3,1,1 1
1,3,2,1 1
1,3,2,1 1
1,3,3,1 1
1,3,3,1 1
通过这种方式,就做到前4个字段是key,但是通过前两个字段进行partition的目的- Hadoop Streaming 实战: 二次排序
- Hadoop Streaming二次排序
- hadoop streaming 输出数据分割与二次排序
- Hadoop streaming 编写MapReduce程序-二次排序,多文件输入
- Hadoop Streaming 实战: grep
- Hadoop Streaming 实战: grep
- Hadoop Streaming 实战: aggregate
- Hadoop Streaming 实战: aggregate
- hadoop 二次排序
- Hadoop二次排序
- Hadoop二次排序
- Hadoop二次排序
- hadoop二次排序
- hadoop之二次排序
- hadoop二次排序一
- hadoop二次排序二
- hadoop二次排序三
- Hadoop二次排序
- 介绍n款计算机视觉库/人脸识别开源库/软件
- 应用程序挂起、复原与终止— IOS开发
- C++跨平台开源库 大全
- 插入排序
- plsa学习
- Hadoop Streaming 实战: 二次排序
- 关闭android程序里所有的activity
- 程序执行的先后顺序(中文版)
- UIUC某童鞋收集的代码合集
- 以用户的角度给Android开发者的一封信
- zf布局文件
- SD常用TCODE清单
- 第十二章 使用工具栏创建简单的多视图应用程序
- 在部署一个IIS7程序时的问题