spark三代API比较
来源:互联网 发布:如何提高淘宝试用 编辑:程序博客网 时间:2024/05/17 07:42
spark 第一代API----RDD:
DataFrame核心特征:
- A list of partitions
- A function for computing each split
- A list of dependencies on other RDDs
- Optionally,a Partitioner for key-valueRDDs(e.g. to say the RDD is hash-partitioned)
- Optionally,a list of preferred locations to compute each splits on(e.g. block locations for an HDFS file)
spark 第二代API----DataFrame:
DataFrame核心特征:
- 包含了以Row为单位的每行数据的列信息,此时DataFrame就是Table;
- Tungsten:新的执行引擎;
- Catalyst:新的语法解析框架
提升计算效率、减少数据读取、底层计算优化
spark 第三代API----DataSet:
DataSet核心价值和好处是:Encoder
- 编译时的类型安全检查,不需要再执行事情才发现类型不匹配;
- 性能的极大提升;
- 内存使用极大降低、减少GC......
- 极大地减少网络数据的传输......
- 极大地减少了采用Scala和Java编程的代码的差异性,DataSet还不支持Python 、R
- dataSet会同时可以兼顾Functional和Relational Programming;
- dataSet可以统一流计算、SQ、ML等的API编程
- dataSet最重要的是效率;底层的Tungsten的优化、Encoder、数据在内存和磁盘的存储等等
0 0
- spark三代API比较
- IPv4、IPv6、IPv9三代协议比较
- spark三种分布式部署方式比较
- Spark RDD API 参考示例(三)
- Apache Spark探秘:三种分布式部署方式比较
- Apache Spark三种分布式部署方式比较
- Apache Spark 三种分布式部署方式比较
- Apache Spark:三种分布式部署方式比较
- Hadoop、Storm和Spark 三者的区别、比较
- Spark API
- Spark API
- Memcached 客户端程序三种API的比较
- Memcached 客户端程序三种API的比较
- Memcached 客户端程序三种API的比较
- ArcGIS api for js三种查询方法比较
- 三代逃婚
- 三代honeypot连外网
- 三代DeepID简介
- Mybatis 框架使用的最核心内容(一):Mybatis的特点和映射管理
- NOIP2016总结
- VS2010/2013下生成并使用静态库
- git
- ResNet && DenseNet(原理篇)
- spark三代API比较
- 二维数组中的查找
- Mybatis 框架使用的最核心内容(二):mapper.xml中常用的标签详解
- 谱聚类算法及其代码(Spectral Clustering)
- 什么样的打码网站算正规的打码网站
- TabLayout与ViewPager组合
- 在使用vue-router遇到的问题以及解决办法
- 初始Windows程序 示例二
- Sublime JSHint安装