RDD与DataFrame
来源:互联网 发布:yoga lenovo 知乎 编辑:程序博客网 时间:2024/06/04 19:03
RDD是一个分布式的无序的列表。
RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。
举例如下:
例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。
使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户自己去写一个很特化的聚合函数来完成这样的功能。
而有了DataFrame,则框架会去了解RDD中的数据会是什么样的结构,用户可以明确地说清楚自己对每一列进行什么样的操作,这样就有可能可以实现一个算子,用在多个列上,比较容易进行算子的复用。甚至,未来如果要求求出每个年龄段内不同的姓氏有多少,则使用RDD接口,之前的函数需要改动很大才能满足要求,而使用DataFrame接口,只需要添加对这一个列的处理,原来的max/min的相关列处理都可保持不变。
总而言之,DataFrame相关接口就是RDD的一个扩展,让RDD了解RDD中存储的数据包含哪些列,并可以在列上进行操作。
另外,DataFrame基本上快要被DataSet接口取代了。
0 0
- RDD与DataFrame
- Spark:DataFrame 与 RDD
- RDD,DataFrame与DataSet
- RDD,DataFrame与DataSet区别
- RDD,DataFrame与DataSet区别
- DataFrame与RDD的区别
- Spark RDD 与 Pandas Dataframe
- RDD与DataFrame动态转换(Java)
- spark 中rdd与dataframe的合并
- Spark的RDD与DataFrame、DataSet
- Spark 之DataFrame与RDD 转换
- spark sql定义RDD、DataFrame与DataSet
- Spark DataFrame与RDD互操作
- Java实战RDD与DataFrame动态转换操作
- 使用Java实战RDD与Dataframe动态转换
- spark: RDD与DataFrame之间的相互转换
- RDD, DataFrame or Dataset
- rdd转换为DataFrame
- yii2项目实战-博客管理平台的搭建
- 给定一整数在有序的整数数组中找出与给定值最接近的k个整数
- java面试准备-day03-并发包类
- 安卓的通信机制
- POJ 2142 The Balance .
- RDD与DataFrame
- 转:虚幻4引擎3d化UI教程
- 排序检索-10474 - Where is the Marble?
- 让Dev C++支持C++11
- 2092 整数解
- Swift-Swift初体验
- 小娜老师的讲义-Docker基础知识-容器(一)
- windows7 64bite环境安装theano
- linux学习第七课--文件夹属性