RDD与DataFrame

来源:互联网 发布:yoga lenovo 知乎 编辑:程序博客网 时间:2024/06/04 19:03

RDD是一个分布式的无序的列表。

RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。

举例如下:

example

例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。

使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户自己去写一个很特化的聚合函数来完成这样的功能。

而有了DataFrame,则框架会去了解RDD中的数据会是什么样的结构,用户可以明确地说清楚自己对每一列进行什么样的操作,这样就有可能可以实现一个算子,用在多个列上,比较容易进行算子的复用。甚至,未来如果要求求出每个年龄段内不同的姓氏有多少,则使用RDD接口,之前的函数需要改动很大才能满足要求,而使用DataFrame接口,只需要添加对这一个列的处理,原来的max/min的相关列处理都可保持不变。

总而言之,DataFrame相关接口就是RDD的一个扩展,让RDD了解RDD中存储的数据包含哪些列,并可以在列上进行操作。

另外,DataFrame基本上快要被DataSet接口取代了。



0 0
原创粉丝点击