day65-Spark SQL下Parquet深入进阶

来源:互联网 发布:工业现场数据采集 编辑:程序博客网 时间:2024/06/05 09:38

DT大数据梦工厂联系方式:

新浪微博:www.weibo.com/ilovepains/
微信公众号:DT_Spark

博客:http://.blog.sina.com.cn/ilovepains

 

SparkSQL 下的Parquet 序列化

SparkSql 下的Parquet源码解读

SparkSql下Parquet总结

 

Parquet下的Bolck块

ClounCkeck:列块

rowGroup: 行组以Page的方式存储,Page 是压缩和编码的最小单位,每个rowGroup包含多个cloumnCheck,每个clounCkeck 包含多个Page

文件元数据,列块元数据

减少序列化反序列化的时间:

SqlNewHadoopRDD –165

UnsafeRow

Platform:类中 copyMemory(): 递归

RecordReduceerImplementation.java  

0 0
原创粉丝点击