RDD的5大特性
来源:互联网 发布:mac 内录 编辑:程序博客网 时间:2024/06/05 05:54
worker里有很多Excutor,真正完成计算的是Excutor,Excutor计算都是在内存进行计算,
Excutor里面有partitioner,partitioner里面的数据如果内存足够大的话放到内存中,它是一点一点读的
RDD是分布式数据集,所说RDD就是这个,
RDD有5个特点:
1.a list of partiotioner有很多个partiotioner(这里有3个partiotioner),可以明确的说,
一个分区在一台机器上,一个分区其实就是放在一台机器的内存上,
2.a function for partiotioner一个函数作用在一个分区上。
比如说一个分区有1,2,3 在rdd1.map(_*10),把RDD里面的每一个元素取出来乘以10,每个分片都应用这个map的函数
3.RDD之间有一系列的依赖
rdd1.map(_*10).flatMap(..).map(..).reduceByKey(...)
构建成为DAG,这个DAG会构造成很多个阶段,这些阶段叫做stage,RDDstage之间会有依赖关系,后面根据前面的依赖关系来构建,如果前面的数据丢了,它会记住前面的依赖,从前面进行重新恢复。每一个算子都会产生新的RDD.
textFile 与flatMap会产生两个RDD.
4.分区器hash & Integer.Max % partiotioner 决定数据到哪个分区里面,可选,这个RDD是key-value 的时候才能有
5.最佳位置。数据在哪台机器上,任务就启在哪个机器上,数据在本地上,不用走网络。不过数据进行最后汇总的时候就要走网络。(hdfs file的block块)
Excutor里面有partitioner,partitioner里面的数据如果内存足够大的话放到内存中,它是一点一点读的
RDD是分布式数据集,所说RDD就是这个,
RDD有5个特点:
1.a list of partiotioner有很多个partiotioner(这里有3个partiotioner),可以明确的说,
一个分区在一台机器上,一个分区其实就是放在一台机器的内存上,
一台机器上可以有多个分区。
用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。每个分配的存储是由BlockManager实现的,每个分区都会被逻辑映射成BlockManager的一个Block,而这个Block会被一个Task负责计算。
2.a function for partiotioner一个函数作用在一个分区上。
比如说一个分区有1,2,3 在rdd1.map(_*10),把RDD里面的每一个元素取出来乘以10,每个分片都应用这个map的函数
3.RDD之间有一系列的依赖
rdd1.map(_*10).flatMap(..).map(..).reduceByKey(...)
构建成为DAG,这个DAG会构造成很多个阶段,这些阶段叫做stage,RDDstage之间会有依赖关系,后面根据前面的依赖关系来构建,如果前面的数据丢了,它会记住前面的依赖,从前面进行重新恢复。每一个算子都会产生新的RDD.
textFile 与flatMap会产生两个RDD.
4.分区器hash & Integer.Max % partiotioner 决定数据到哪个分区里面,可选,这个RDD是key-value 的时候才能有
5.最佳位置。数据在哪台机器上,任务就启在哪个机器上,数据在本地上,不用走网络。不过数据进行最后汇总的时候就要走网络。(hdfs file的block块)
阅读全文
0 0
- RDD的5大特性
- RDD的5大特性
- RDD的五大特性
- RDD五大特性
- RDD五大特性
- RDD五大特性
- spark RDD 五大特性
- spark学习笔记之一:RDD的五大特性
- Sprak学习之RDD五大特性
- Spark RDD概念学习系列之RDD的5大特点
- 每天一点进步:Spark RDD三大特性
- RDD特性与操作
- RDD基本特性
- RDD基本特性
- Spark的RDD原理以及2.0特性的介绍
- Spark的RDD原理以及2.0特性的介绍
- Spark的RDD原理以及2.0特性的介绍
- 2.spark的RDD特性(Resillient Distributed Dataset)
- angularjs 循环调服务
- html页面左侧广告悬浮窗
- 微信小程序的几个兼容问题
- 如何使用Jenkins的public over SSH插件连接应用服务器
- Python图表绘制:matplotlib绘图库入门
- RDD的5大特性
- 多个图叠加,解决点击事件穿透,onTouch事件拦截但是响应点击事件
- MongoDB简介
- 《用Python玩转数据》scikit-learn机器学习经典入门项目
- java堆栈、String、常量池分析
- Redis调用lua脚本
- 定时器
- Opencv Qt 学习笔记(三) 级联器的训练
- maven工程中为什么要在pom.xml中配置tomcat插件