RDD和Dataframe
来源:互联网 发布:淘宝卖家跑路了 编辑:程序博客网 时间:2024/06/06 17:11
RDD是一个分布式的无序的列表。
RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。
举例如下:
例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。
使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户自己去写一个很特化的聚合函数来完成这样的功能。
而有了DataFrame,则框架会去了解RDD中的数据会是什么样的结构,用户可以明确地说清楚自己对每一列进行什么样的操作,这样就有可能可以实现一个算子,用在多个列上,比较容易进行算子的复用。甚至,未来如果要求求出每个年龄段内不同的姓氏有多少,则使用RDD接口,之前的函数需要改动很大才能满足要求,而使用DataFrame接口,只需要添加对这一个列的处理,原来的max/min的相关列处理都可保持不变。
总而言之,DataFrame相关接口就是RDD的一个扩展,让RDD了解RDD中存储的数据包含哪些列,并可以在列上进行操作。
另外,DataFrame基本上快要被DataSet接口取代了。
阅读全文
0 0
- RDD和Dataframe
- DataFrame和 Rdd
- DataFrame格式化和RDD/Dataset/DataFrame互转
- 区别RDD、DataFrame和DataSet
- DataFrame和RDD的区别
- RDD和DataFrame和Dataset比较
- RDD和DataFrame转换(Java+Scala)
- Spark RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame、DataSet区别和联系
- Spark RDD、DataFrame和DataSet的区别
- spark core组件:RDD、DataFrame和DataSet
- RDD、DataFrame和DataSet的区别
- EasyUI 菜单与按钮
- Spring+Spring MVC+Mybatis工作机制(记录)
- nodejs 4.x 升级到 6.x 动态编译参数差异
- 利用python做简单的图像处理
- Dubbo-Admin管理平台和Zookeeper注册中心的搭建
- RDD和Dataframe
- 配置java运行环境
- Java实践(一)---程序设计基本概念
- 曲线运动PathInterpolator /path
- 由于已经达到 MaxReports 限制,没有写入 apport 报告。
- 子进程的异步等待方式
- 证书操作(openssl、keytool)
- 交叉验证及其用于参数选择、模型选择、特征选择的例子
- PHP伪造post请求