hive parquet table 配置使用压缩

来源:互联网 发布:php好就业吗 编辑:程序博客网 时间:2024/06/13 22:07

创建parquet table :

create table mytable(a int,b int) STORED AS PARQUET;


创建带压缩的parquet table:

create table mytable(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');


如果原来创建表的时候没有指定压缩,后续可以通过修改表属性的方式添加压缩:

ALTER TABLE mytable SET TBLPROPERTIES ('parquet.compression'='SNAPPY');

或者在写入的时候set parquet.compression=SNAPPY;


不过只会影响后续入库的数据,原来的数据不会被压缩,需要重跑原来的数据。


采用压缩之后大概可以降低1/3的存储大小。