Spark SQL DataFrame/Dataset介绍

来源:互联网 发布:mysql 无限极分类查询 编辑:程序博客网 时间:2024/05/01 21:28

Spark SQL DataFrame/Dataset介绍

   Spark的RDD API比传统的MapReduce API在易用性上有了巨大提升,但对于没有MapReduce和函数式编程经验的新手来说,RDD API还是有一定门槛的。   在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。与RDD的主要区别在于:前者带有Schema元数据,即DataFrame所表示的二维表数据集的每一列都带有名称和类型,其结构如下图所示。

RDD与DataFrame的结构对比]![
  
  上图直观展示了RDD和DataFrame的区别:左边的RDD[Person]虽然以Person为类型参数,但Spark架构本身不了解Person类的内部结构,而右边的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含那些列,每一列的名称和分类分别是什么,这和关系数据库中的物理表类似。有了这些元数据,Spark SQL的查询优化器就可以进行针对性的优化了。在Spark SQL中引入DataFrame能带来如下好处:
1. 精简代码
2. 提升执行效率
3. 减少数据读取:
分析大数据最有效的方法就是忽略无关的数据,根据查询条件进行恰当的裁剪。对于一些比较“智能”的数据格式,Spark SQL可以根据数据文件中附带的统计信息进行剪枝。在这类数据格式中,数据是分段保存的,每段数据都带有最大值、最小值、NULL值数量等统计信息。