SparkSQL的发展历史
来源:互联网 发布:java招聘系统源码 编辑:程序博客网 时间:2024/06/16 10:21
Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统MapReduce,但是MapReduce的使用难度较大,所以就开发了Hive,Hive编程用的是类SQL的HQL的语句,这样编程的难度就大大的降低了,Hive的运行原理就是将HQL语句经过语法解析、逻辑计划、物理计划转化成MapReduce程序执行。当Spark出来以后,Spark团队也开发了一个Shark,就是在Spark集群上安装一个Hive的集群,执行引擎是Hive转化成Mapreduce的执行引擎,这样的框架就是Hive on Spark,但是这样是有局限性的,因为Shark的版本升级是依赖Hive的版本的,所有2014年7月1日spark团队就将Shark转给Hive进行管理,Spark团队开发了一个SparkSQL,这个计算框架就是将Hive on Spark的将SQL语句转化为Spark RDD的执行引擎换成自己团队从新开发的执行引擎。Spark SQL经历了几次的更新,演变历程如下:
-1 1.0版本以前
Hive on Spark Shark
-2 1.0.x版本
Spark SQL
Alpha版本(测试版本,不建议商业项目使用)
这个版本让Spark升为了Apache的顶级项目。
-3 1.3.x版本
SparkSQL DataFrame
Release(成熟,可以使用)
-4 spark 1.5.x版本
钨丝计划(底层代码的优化)
-5 spark 1.6.x版本
DataSet(alpha版本)
-6 Spark 2.x.x版本
DataSet(正式的)
Structrued Streaming
从发展历史来看会发现Spark的重要版本的变更都跟SparkSQL有关
- SparkSQL的发展历史
- 计算机的发展历史
- RSS的发展历史
- ERP的发展历史
- FreeBSD的发展历史
- Flash的发展历史
- 计算机的发展历史
- Unix的历史发展
- FreeBSD的发展历史
- Unix的发展历史
- Symbian的历史发展
- 外汇的发展历史
- vb的发展历史
- oracle的发展历史
- 计算机的发展历史
- HTML的发展历史
- delphi的发展历史
- 单片机的发展历史
- Java并发编程:volatile关键字解析
- 微信公众号菜单编辑
- 如何扩大CMD窗口显示的行数
- Android–taskAffinity属性
- 第九周项目1---二叉树算法库
- SparkSQL的发展历史
- 147. Insertion Sort List
- XML Parser Error on line 16: 对实体 "useSSL" 的引用必须以 ';' 分隔符结尾。
- java消息服务使用总结(JMS:通过ActiveMQ实现)
- 我的Android进阶之旅------>Android采用AES+RSA的加密机制对http请求进行加密
- Ubuntu14.04LTS下升级gcc到gcc-6版本
- 深入理解Java中的final关键字
- VSCODE常用插件记录—不定期更新
- Oracle trunc()函数的用法