第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
来源:互联网 发布:网络空间安全战略 编辑:程序博客网 时间:2024/06/02 03:49
第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
2017年5月份左右,老师个人认为需要等到Spark 2.2版本
DataSet背后会被Tungsten优化,而这里面会采用Whole-Stage Code Generation的技术,所以出错的时候定位错误和调优非常困难
例如for循环翻译成了自己的方式,出错的话,错误信息定位就非常困难,生产环境面临错误和调优,搞不定了还是要用RDD
因此 ,RDD是万能的 基于rdd的spark core是王道
SQL是无类型的
DataFrame是弱类型的
DataSet是强类型的
SQL是无类型的:例如写的sql语法,数据类型是否对,列存在不存在在编写sql语句的时候判定不出来,只有运行的时候才发现是什么问题.
DataFrame是弱类型的:相当于DataSet[Row],DataFrame其实就是一张表,如在表中声明一些列,但实际运行中其中一些列不存在值,是弱耦合的.
DataSet是强类型的:必须严格声明,而且类型要匹配,在编译时期就决定了数据类型是不是准确.
DataFrame其实是一张表
DataFrame -》DataSet[Row]
as[U : Encoder]
作业
Spark第二代钨丝计划的之所以运行速度快的原因是什么
0 0
- 第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
- 第44课:Spark 2.0编程实战之DataSet案例开发实战
- 第45课 Spark 2.0实战之Dataset:map、flatMap、mapPartitions、dropDuplicate、coalesce、repartition等
- spark dataframe和dataSet用电影点评数据实战
- spark dataframe和dataSet用电影点评数据实战
- Spark-Sql之DataFrame实战详解
- spark之DataFrame的json数据实战
- 大数据Spark “蘑菇云”行动第47课程 Spark 2.0实战之Dataset:collect_list、collect_set、avg、sum、countDistinct等
- spark dataframe实战(持续更新)
- 第46课程 Spark 2.0实战之Dataset:sort、join、joinWith、randomSplit、sample、select、groupBy、agg、col等
- 数据Spark “蘑菇云”行动Hadoop实战速成之路第30课:Hadoop在Eclipse下的编程实战
- SPARK 第4期:通过案例实战掌握spark sql(dataframe)
- 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
- 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记
- 第34课:在IDEA中开发Spark实战
- Spark 2.0系列之SparkSession详解
- Spark 2.0系列之SparkSession详解
- Spark 2.0系列之SparkSession详解
- 滑动滚轮放大缩小
- 【seen看世界】:人们为什么会趋于稳定?
- .NET转JAVA之路005
- [LeetCode] Find the Difference
- 动画的简单使用
- 第43课:Spark 2.0编程实战之SparkSession、DataFrame、DataSet开发实战
- php错误级别
- machine people
- SqlServer索引的原理与应用
- 在 keil MDK_V5中加入arm7,arm9等一些芯片型号
- Vijos P1412 多人背包
- -webkit-line-clamp 多行文字溢出...
- Android21--Android之Android中的Fragment
- NYOJ219 a problem about data