动手实战创建RDD的三种方式

来源:互联网 发布:sodu网站源码 编辑:程序博客网 时间:2024/05/21 14:03

1.通过已经存在的scala集合

2.通过hdfs,hbase等
从 hadoop中的hdfs读取数据。
这里写图片描述
toDebugString可以查看RDD创建的过程
1.首先要从hadoop中读取数据,因此会有mapred.FileInputFormat,共有88个文件
2.hadoopRDD就把物理层分片转化成逻辑层分片。
3.MaPartitionsRDD就可以把读取出来的数据做一次转换,把索引号去掉
这里写图片描述
3.其他的rdd转换
这里写图片描述
RDD支持两种操作:转换(transformation),即从现有的数据集创建一个新的数据集;动作(action),即在数据集上进行计算后,返回一个值给Driver程序。
例如:map就是一种转换,它将数据集每一个元素都传递给函数,并返回一个新的分布式数据集表示结果。reduce是一种动作,通过一些元素将所有元素叠加起来,
并将最终结果返回给Driver,其次另一个reduceByKey,能返回一个分布式数据集。
单词统计:
这里写图片描述
从下面的过程可以看出来每个 RDD之间存在的依赖。
这里写图片描述

0 0
原创粉丝点击