spark-sql 不兼容的hive语法列表

来源:互联网 发布:linux 当前路径命令 编辑:程序博客网 时间:2024/04/28 23:02
1.hive的主要特性:
    spark不支持hive的桶(bucket)
2.深奥的hive特性
   (1)不支持union数据类型(注意:是数据类型,不是sql语法中的union)
   (2)不支持unique join     
   (3)不支持列统计信息收集
3.Hive Input/Output Formats
   不支持hadoop文件归档(hadoop archive)
4.Hive的优化特性
  (1)不支持hive的索引
  (2)对于join和group by操作,不能自动的决定reduce的数量。可以通过设置SET spark.sql.shuffle.partitions=[num_tasks]来设置shuffle的并行度(对于spark-sql来说,默认是shuffle并行度是200,对于其他spark程序来说,默认是占有的executor的cpu的数量)
  (3)查询元数据信息必须启动executor,而不像hive那样不需要启动计算资源
  (4)不支持hive的数据倾斜(Skew data flag)标志
  (5)不支持hive的STREAMTABLE join的标志
  (6)对于查询结果不支持小文件合并 
5.经过测试发现,spark不支持 insert overwrite/into directory 语法。
0 0
原创粉丝点击