Hive Parquet配置
来源:互联网 发布:淘宝可以解绑支付宝 编辑:程序博客网 时间:2024/06/16 14:55
parquet的配置主要包括:
parquet.compression
parquet.block.size
parquet.page.size
等,详见:
https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetOutputFormat.java
这些配置在Hive里面直接set就好,比如:
set parquet.compression=snappy
但是block size比较难设置。
首先,关于parquet的数据格式:
https://github.com/Parquet/parquet-format
block size对应于row group size的,但是由不完全是同一个东西,
block size是grow group在内存中的buffer size,实际写到磁盘之后,并没有这么大。比如我就遇到,block size设置为512MB,然后通过metadata去读block size只有100多MB。
而且在hive中,如果你是通过另外一张表,通过insert into/overwrite …. select….来创建parquet的话,光设置parquet.block.size是没用的,还需要保证hive的split size够大:
http://blog.javachen.com/2013/09/04/how-to-decide-map-number/
http://blog.csdn.net/moon_yang_bj/article/details/17901371
也就是说,parquet.block.size、dfs.block.size(hadoop 2.x 中是dfs.blocksize)、mapred.max.split.size都要设大才行。
- Hive Parquet配置
- Hive Parquet配置
- hive parquet table 配置使用压缩
- Hive ORC和Parquet
- spark 读取hive parquet
- hive使用orcfile parquet sequencefile
- Hive扩展功能(一)--Parquet
- Hive parquet 表查询报错
- Spark中配置Parquet参数
- Parquet
- Parquet
- Parquet
- Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
- hive入门们学习:orcFile和parquet存储格式简介
- Hive文件存储格式 :Parquet sparksql ,impala的杀手锏
- impala用parquet格式,hive用orc格式
- hive和impala操作parquet文件timestamp带来的困扰
- parquet-thrfit 数据读写以及hive表读取
- Struts2中的ValueStack-OgnlValueStack中的Context和Root存数据和取数据
- 机器学习
- 记录本
- 局部加权线性回归
- 插件 inter application
- Hive Parquet配置
- java过滤器
- 凸优化(一)——Introduction
- Appium+TestNG+Jenkins +Ant 持续集成手机自动化测试
- 列表项布局时边框重合问题的解决方法
- 中介者模式
- 第9周项目2- 二叉树遍历的递归算法
- 数组篇1(一维数组)
- android 获取控件宽度高度