Spark SQL DataFrame/Dataset介绍

来源：互联网发布：mysql 无限极分类查询编辑：程序博客网时间：2024/05/01 21:28

Spark SQL DataFrame/Dataset介绍

   Spark的RDD API比传统的MapReduce API在易用性上有了巨大提升，但对于没有MapReduce和函数式编程经验的新手来说，RDD API还是有一定门槛的。   在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。与RDD的主要区别在于：前者带有Schema元数据，即DataFrame所表示的二维表数据集的每一列都带有名称和类型，其结构如下图所示。

RDD与DataFrame的结构对比]![
　　
　　上图直观展示了RDD和DataFrame的区别：左边的RDD[Person]虽然以Person为类型参数，但Spark架构本身不了解Person类的内部结构，而右边的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含那些列，每一列的名称和分类分别是什么，这和关系数据库中的物理表类似。有了这些元数据，Spark SQL的查询优化器就可以进行针对性的优化了。在Spark　SQL中引入DataFrame能带来如下好处：
1. 精简代码
2. 提升执行效率
3. 减少数据读取：
分析大数据最有效的方法就是忽略无关的数据，根据查询条件进行恰当的裁剪。对于一些比较“智能”的数据格式，Spark SQL可以根据数据文件中附带的统计信息进行剪枝。在这类数据格式中，数据是分段保存的，每段数据都带有最大值、最小值、NULL值数量等统计信息。

阅读全文

0 0