Hadoop,Spark[一]:文件输出压缩

来源:互联网 发布:mac系统升级安装失败 编辑:程序博客网 时间:2024/06/04 20:13

Hadoop,Spark[一]:文件输出压缩


在日常开发中,经常需要将最终的输出结果压缩,提升存储效率,为了日后开发方便,在这里记下常用的压缩。

Spark最终结果压缩

sparkContext.textFile(inputPath).flatMap(x => {    TestLog.readFromString(x)}).saveAsTextFile(outputPath, classOf[GzipCodec])

MapReduce最终结果的压缩

FileOutputFormat.setCompressOutput(job, true);//设置压缩FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);//压缩类型

Mapper 中间结果压缩

Configuration conf = new Configuration();conf.setBoolean("mapred.compress.map.output",true);conf.setClass("mapred.map.output.compression.codec",GzipCodec.class,CompressionCodec.class);
原创粉丝点击