Spark SQL(01)--Overview

来源:互联网 发布:三星s5注册网络 编辑:程序博客网 时间:2024/06/06 03:43

Overview
1. Spark SQL用于处理结构化数据.
2. 可以使用SQL shell或者是Dataset api进行交互
3. 除了可以和已存在的文件进行查询, 还能结合Hive或者其他数据库连接(如JDBC和ODBC)

Dataset
1. 是一个分布式数据集合.
2. 可以通过JVM Object转换为Dataset然后通过常见的RDD函数进行操作.

DataFrame
1. 一个有列名字的Dataset, 类似于关系型数据库中的表.
2. 可以从文件,HIve表, 外部数据库,或者已存在的RDD转化为DataFrame.

总结
1. DataFrame就是一个分布式内存中的二维表, 可以从RDD, 文件, Hive表, 外部表等渠道转化为DataFrame.
2. 因为在内存中计算, 速度肯定是要优于磁盘的.
3. Spark SQL还根据已知的信息对计算过程进行了优化.

原创粉丝点击