Spark SQL(01)--Overview
来源:互联网 发布:三星s5注册网络 编辑:程序博客网 时间:2024/06/06 03:43
Overview
1. Spark SQL用于处理结构化数据.
2. 可以使用SQL shell或者是Dataset api进行交互
3. 除了可以和已存在的文件进行查询, 还能结合Hive或者其他数据库连接(如JDBC和ODBC)
Dataset
1. 是一个分布式数据集合.
2. 可以通过JVM Object转换为Dataset然后通过常见的RDD函数进行操作.
DataFrame
1. 一个有列名字的Dataset, 类似于关系型数据库中的表.
2. 可以从文件,HIve表, 外部数据库,或者已存在的RDD转化为DataFrame.
总结
1. DataFrame就是一个分布式内存中的二维表, 可以从RDD, 文件, Hive表, 外部表等渠道转化为DataFrame.
2. 因为在内存中计算, 速度肯定是要优于磁盘的.
3. Spark SQL还根据已知的信息对计算过程进行了优化.
阅读全文
0 0
- Spark SQL(01)--Overview
- spark overview
- spark overview
- Spark Overview
- Apache Spark - Overview(Spark 概览)
- Spark Cluster Mode Overview
- Spark1.6.0官方文档翻译01--Spark Overview
- SQL Server 2008 OverView
- 16 SQL Tuning Overview
- Overview of PL/SQL
- Automatic SQL Tuning Overview 【每日一译】--2013-01-23
- Overview of Spark, YARN, and HDFS
- spark官方文档翻译_Cluster Mode Overview
- spark-Cluster Mode Overview整理学习
- SQL Programming (1): Overview
- Apache Spark - Cluster Mode Overview (Spark集群模式一览)
- Spark Streaming+Spark SQL
- spark sql
- 重构到微服务,第 2 部分 迁移数据时的考虑事项
- C++对内存的使用管理
- 图像拼接和图像融合技术
- 小技巧:为List<String>添加分隔符
- 浏览器地址栏的妙用
- Spark SQL(01)--Overview
- Redis教程(三)散列(HSET)类型
- java.sql.SQLException: 索引中丢失 IN 或 OUT 参数:: 2
- Unity 热更新之AssetBundle
- 分布式实时日志分析解决方案ELK部署架构
- PHP RSA参数签名
- eclipse 创建maven 项目 动态web工程完整示例
- java关于数值型和数值型包装类判断相等的条件
- jvm虚拟机