hadoop streaming 版本兼容问题

来源：互联网发布：淘宝客服规则大全编辑：程序博客网时间：2024/05/01 15:31

转载一篇同事的文章：

使用hadoop streaming的脚本，在从hadoop 1.0迁移到2.7.1时遇到问题：

使用1.0时，map的outputkey是Text正确，迁移到2.7.1时报错，修改为LongWritable正常。

为保证代码统一，在1.0上map的outputkey也使用LongWritable，报错，要求修改为Text，修改后正常。

解决办法，使用Text，在2.7.1 版本的streaming shell脚本中增加：

-Dmapreduce.map.output.key.class=org.apache.hadoop.io.Text\

分析原因应该是hadoop streaming所使用的map outputkey默认值在版本升级时发生了变化，即：1.0默认为Text，2.0默认为LongWritable。

验证：

1.0中写死的代码：

jobConf_.setOutputKeyClass(Text.class);jobConf_.setOutputValueClass(Text.class);publicvoidsetOutputKeyClass(Class<?> theClass) {  setClass("mapred.output.key.class", theClass, Object.class);}

keyClass = (Class<K>)job.getMapOutputKeyClass();publicClass<?> getMapOutputKeyClass() {  Class<?> retv = getClass("mapred.mapoutput.key.class",null, Object.class); if(retv == null) {    retv = getOutputKeyClass(); }  returnretv;}publicClass<?> getOutputKeyClass() {  returngetClass("mapred.output.key.class", LongWritable.class, Object.class);}

虽然默认值是LongWritable，但由于已经设置了mapred.output.key.class，所以在1.0中无法修改map outputkey参数，只能使用Text。

2.0中代码：

maptask中代码同1.0中的形式，得到默认值LongWritable。但在StreamJob类中并未对mapreduce.map.output.key.class 进行设置值，所以最终使用的是LongWritable。

idResolver.resolve(jobConf_.get("stream.map.output",    IdentifierResolver.TEXT_ID));jobConf_.setClass("stream.map.output.reader.class",  idResolver.getOutputReaderClass(), OutputReader.class);// 这两个条件均未满足。if(isMapperACommand || jobConf_.get("stream.map.output") != null) {  // if mapper is a command, then map output key/value classes come from the  // idResolver  // 正常这两句可以设置map outputkey和value为Text，可惜上面条件未满足  jobConf_.setMapOutputKeyClass(idResolver.getOutputKeyClass());  jobConf_.setMapOutputValueClass(idResolver.getOutputValueClass());   if(jobConf_.getNumReduceTasks() == 0) {    jobConf_.setOutputKeyClass(idResolver.getOutputKeyClass());    jobConf_.setOutputValueClass(idResolver.getOutputValueClass());  }}

0 0