hadoop mr reduce类变量使用问题整理

来源：互联网发布：广州学网络推广编辑：程序博客网时间：2024/06/04 04:41

源数据

假定有一份学生成绩数据每行数据格式为：学号，课程ID，成绩。

目标

我们用mr实现计算每个学生的平均成绩、有效课程数与总分。

步骤

1.用map读取数据。

key：学号

value：成绩

2.用reduce计算得到平均成绩和总成绩，并输出最终结果。

这里仅给出reduce参考代码（暂不考虑数据异常等问题）：

public static class Reduce extends Reducer<Text, Text, Text, Text>{private double sum = 0;//[位置1]private int num = 0;protected void setup(Context context)throws IOException, InterruptedException {context.getCounter("INFO", "reduce setup count:").increment(1);//sum = 0;//[位置2]//num = 0;//[位置2]}@Overrideprotected void cleanup(Context context) throws IOException, InterruptedException {context.getCounter("INFO", "reduce cleanup count:").increment(1);};public void reduce(Text key, Iterable<Text> values, Context context) throwsIOException, InterruptedException{//sum = 0;//[位置3]//num = 0;//[位置3]for (Text value : values) {try{if (/*判断value值是否有效*/){sum += Double.parseDouble(value);num++;}}catch(Exception e){continue;}}double aver = 0;if(num ! =0){aver = sum/num;}context.write(key, new Text(aver + "\t" + num + "\t" + sum));//sum = 0;//[位置4]//num = 0;//[位置4]}}

分析

1.在类Reduce中定义了两个变量：

sum：用于统计每个key的总成绩。

num：用于统计每个key的课程数。

2.由于这两个变量使用场景类似，暂以sum为例说明：

从map 到 reduce时，一个reduce类对象实际会处理多个key实例。

3.问题描述

假定有两个key被分配到一个reduce。

信息如下：

S001 1000 70

S001 1001 80

S001 1002 90

S002 1000 80

S002 1001 80

S002 1002 80

...

假定我们不考虑位置2 （或者位置3）部分代码时，输出结果为：

S001 80 32 40

S002 80 64 80

这是因为，变量sum和num在实际处理完第二个key时，sum和num的值仍为第一个key处理完时的数据。

如果不将该数值重新赋值，则会影响到后续的key处理时的对应数据真实性。

4.可能方法

由于setup在每个key处理前都会被调用。

所以可能的解决方案有多种，见代码中的位置2、3、4（使用任何一种均可）。

作为日常使用mr的规范与可读性，建议一般在位置2处处理。

0 0