Spark SQL介绍
来源:互联网 发布:vr拼接软件 编辑:程序博客网 时间:2024/06/06 16:53
spark SQL会成为spark的未来,spark以后的框架、其他的框架都会架构在spark SQL的基础之上!
1.大数据为什么要使用 SQL
与我们已有的BI等数据分析系统集成在一块
多数人都会SQL而且习惯了用SQL做数据分析
开发速度快
2.大数据为什么要使用 spark SQL
与直接基于RDD编程相比,写 spark SQL代码更少,编写更快,更容易修改和理解
相比于直接进行RDD编程而言,spark SQL会自动地进行性能优化
更有效地使用必要的数据,提高内存的使用价值
3.有了SQL为什么还要DataSet
SQL可以快速实现你的简单的想法,但是复杂的不行,总而言之:SQL虽然强大,但是表达能力不行。如类型检查,机器学习
4. 局限性
RDD的局限性:RDD的本身内部是一条一条的record,没有每个record的schema,不能像谓词下推等优化,不能方便地读取不同类型的数据,如读取parquet,想合并数据源时也不简单。
DataFrame的局限性:Dataframe是函数式的编程风格,不支持领域对象,运行时才类型检查。
DataSet是在DataFrame的基础上的发展出来的,是一种OO风格的接口,编译时就类型检查。
杂记
Tungsten的开发计划是五年,钨丝计划针对的是CPU、内存、磁盘、网络。网络的优化已经做得很好了,网络、磁盘的优化提升的效果并不是很明显,所以第一阶段的优化是内存,第二阶段是CPU。
spark在大数据中某些方面不是最好的技术, Fink在某些理念和实现上都比spark好,但是由于某些原因最火爆的还是spark
spark SQL的理解:spark SQL会在spark的未来中成为中流砥柱的角色,它连通了上面的流处理、机器学习和下面的内核。
DSL:领域专用语言
以上内容部分来自[DT大数据梦工厂]首席专家Spark专家王家林老师的课程分享。感谢王老师的分享,更多精彩内容请扫描关注[DT大数据梦工厂]微信公众号DT_Spark
- spark sql介绍
- Spark SQL介绍
- Spark SQL技术介绍
- spark sql基本使用方法介绍
- spark sql根本使用方法介绍
- spark sql基本使用方法介绍
- Spark SQL DataFrame/Dataset介绍
- Spark SQL 1.3.0 DataFrame介绍、使用
- Spark-SQL介绍及优化策略
- spark sql基本使用方法介绍(转载)
- Spark SQL案例介绍与编程实现
- Spark 2.0介绍:Spark SQL中的Time Window使用
- spark介绍
- spark介绍
- spark介绍
- Spark 介绍
- spark 介绍
- Spark介绍
- PullToRefresh
- 网站分析(六)
- 深度 | 一篇文章带你进入无监督学习:从基本概念到四种实现模型(附论文)
- Problem 45 Triangular, pentagonal, and hexagonal (暴力)
- 浅谈向上造型
- Spark SQL介绍
- Dash前端工程师的好帮手
- 《大话数据结构》
- REST client 基于浏览器的测试工具
- 3DMAX渲染透明带影子动画帧
- 解决javax.servlet.jsp.JspException cannot be resolved to a type
- 【ssm架构】系统架构-三层架构
- 多规模行人检测策略
- 机器学习之——SVM