Parquet表在spark与Impala间不兼容问题
来源:互联网 发布:上市公司数据分析 编辑:程序博客网 时间:2024/06/06 09:43
通过desc formatted 比对了下生成表的格式:
这里是spark-sql下创建的parquet表格式:
SerDe Library: | org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe
InputFormat: | org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat
OutputFormat: | org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat
这里是Impala下创建的parquet表格式:
SerDe Library: | parquet.hive.serde.ParquetHiveSerDe
InputFormat: | parquet.hive.DeprecatedParquetInputFormat
OutputFormat: | parquet.hive.DeprecatedParquetOutputFormat
由此可知spark 和impala 的数据存储parquet格式不一致,而导致在spark下不能正确识别。
下面这个命令是在implala-shell下执行,或者spark beline下运行。
ALTER TABLE par_crt_impala SET FILEFORMAT
INPUTFORMAT"org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat"
OUTPUTFORMAT"org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat"
SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe';
修改之后则正常使用了;
- Parquet表在spark与Impala间不兼容问题
- Parquet表在spark与Impala间兼容性测试
- Impala Parquet 表 分区表
- kudu vs parquet, impala vs spark Benchmark
- Parquet_6. 在Impala表中使用 Parquet 格式
- Impala 表使用 Parquet 文件格式
- spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)
- Hive 或 Impala 的数据类型与 对应底层的 Parquet schema的数据类型不兼容
- impala表使用rcfile,sequencefile和parquet
- Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
- spark读取gz文件与parquet文件
- Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
- spark操作parquet文件
- spark 读取hive parquet
- Spark Parquet使用
- Spark+Parquet分片规则
- Impala实践之十一:parquet性能测试
- vs2012与win7不兼容问题
- A02_IO路径管理
- 将Tomcat添加到服务中
- Firefox彻底禁止自动更新
- 机器学习之聚类算法/Bisecting K-Means算法
- [操作系统] 分页系统的实现问题
- Parquet表在spark与Impala间不兼容问题
- B2B2C商城上线小程序的必要性
- startx 及xinit 介绍(经典)
- IDEA报错URI is not registered ( Setting | Project Settings | Schemas and DTDs
- 电阻器不是电阻器---凯利讯半导体
- Linux下redis安装与使用
- iOS_子类集成父类的XIB样式
- 印花硅胶模压成型跟丝印成型产品有什么区别
- Nginx Windows 进出结束不了