parqute orc 存储文件格式

来源:互联网 发布:淘宝创业故事 编辑:程序博客网 时间:2024/06/05 07:07

如图所示:

这里写图片描述

parquet存储个有一下概念

行组(Row Group):按照行将数据物理上划分为多个单元,每一个行组包含一定的行数,在一个HDFS文件中至少存储一个行组,Parquet读写的时候会将整个行组缓存在内存中。
列块(Column Chunk):在一个行组中每一列保存在一个列块中,行组中的所有列连续的存储在这个行组文件中。不同的列块可能使用不同的算法进行压缩。
页(Page):每一个列块划分为多个页,一个页是最小的编码的单位,在同一个列块的不同页可能使用不同的编码方式。

参考:http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format
https://www.tuicool.com/articles/u6bMnuZ

原创粉丝点击