spark-sql 不兼容的hive语法列表

来源：互联网发布：linux 当前路径命令编辑：程序博客网时间：2024/04/28 23:02

1.hive的主要特性：
spark不支持hive的桶（bucket）
2.深奥的hive特性
(1)不支持union数据类型（注意：是数据类型，不是sql语法中的union）
(2)不支持unique join
(3)不支持列统计信息收集
3.Hive Input/Output Formats
不支持hadoop文件归档(hadoop archive)
4.Hive的优化特性
(1)不支持hive的索引
(2)对于join和group by操作，不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度（对于spark-sql来说，默认是shuffle并行度是200，对于其他spark程序来说，默认是占有的executor的cpu的数量）
(3)查询元数据信息必须启动executor，而不像hive那样不需要启动计算资源
(4)不支持hive的数据倾斜（Skew data flag）标志
(5)不支持hive的STREAMTABLE join的标志
(6)对于查询结果不支持小文件合并
5.经过测试发现，spark不支持 insert overwrite/into directory 语法。

0 0