Hive 11. 关于压缩的配置

来源:互联网 发布:mac大智慧交易软件 编辑:程序博客网 时间:2024/06/04 00:52

关于压缩的配置项 Hive 与 Hadoop

展示默认值,() 中是所有选项:

  • 中间压缩
    指的是 map task 与 reduce task 中间数据的压缩,这里推荐使用 CPU 开销低的压缩格式,比如 SnappyCodec。

    • hive
    hive.exec.compress.intermediate=false --(true/flase)
    • hadoop
    mapred.compress.map.ouput=false --(true/flase)

    指定压缩编码(mapred-site.xml/hive-site.xml):

    mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
  • 最终输出结果压缩

    这里就推荐使用压缩率高的压缩编码,例如 GZIP

    • hive

      hive.exec.compress.output=false --(true/flase)
    • hadoop

      mapred.output.compress=false --(true/flase)

    指定压缩格式:

    “`
    mapred.output.compression.codec=
    org.apache.hadoop.io.compress.GzipCodec

  • 存储格式 SequenceFile

    上一篇提到了。

    Set io.seqfile.compression.type=BLOCK;  -- NONE/RECORD/BLOCK

End!!

2 0
原创粉丝点击