动手实战创建RDD的三种方式
来源:互联网 发布:sodu网站源码 编辑:程序博客网 时间:2024/05/21 14:03
1.通过已经存在的scala集合
2.通过hdfs,hbase等
从 hadoop中的hdfs读取数据。
toDebugString可以查看RDD创建的过程
1.首先要从hadoop中读取数据,因此会有mapred.FileInputFormat,共有88个文件
2.hadoopRDD就把物理层分片转化成逻辑层分片。
3.MaPartitionsRDD就可以把读取出来的数据做一次转换,把索引号去掉
3.其他的rdd转换
RDD支持两种操作:转换(transformation),即从现有的数据集创建一个新的数据集;动作(action),即在数据集上进行计算后,返回一个值给Driver程序。
例如:map就是一种转换,它将数据集每一个元素都传递给函数,并返回一个新的分布式数据集表示结果。reduce是一种动作,通过一些元素将所有元素叠加起来,
并将最终结果返回给Driver,其次另一个reduceByKey,能返回一个分布式数据集。
单词统计:
从下面的过程可以看出来每个 RDD之间存在的依赖。
0 0
- 动手实战创建RDD的三种方式
- [1.2]Spark core编程(一)之RDD总论与创建RDD的三种方式
- RDD的几种创建方式
- RDD创建的两种方式
- RDD转化为DataFrames的两种创建方式
- Java接入Spark之创建RDD的两种方式和操作RDD
- Java接入Spark之创建RDD的两种方式和操作RDD
- spark中创建RDD的方式
- 键值对RDD的创建方式
- spark创建RDD方式
- RDD的创建
- 3.RDD的创建
- 创建RDD和RDD的持久化
- Java创建对象的三种方式
- XFire创建客户端的三种方式
- 创建Servlet的三种方式
- 创建进程的三种方式
- 创建进程的三种方式
- 10003---1小时搞定DIV+CSS布局-固定页面开度布局
- Http协议之获取自定义文件Head信息(1)
- 反射
- 可变参数
- 10001---Div+Css布局教程(-)CSS必备知识
- 动手实战创建RDD的三种方式
- Spring JDBC 使用入门(1)
- 数据结构实验之二叉树三:统计叶子数
- 杭电5240Exam
- JAVA中的Final关键字的使用
- SSDT Hook实现内核级的进程保护
- 读《人生》有感
- LZW压缩(解压缩)算法详解及源码
- Android Error retrieving parent for item: No resource found that matches the given name '...'