Spark术语理解
来源:互联网 发布:c#泛型和数组 编辑:程序博客网 时间:2024/06/01 08:25
为了理解Spark中一些术语,仔细阅读了官方文档以及查阅了相关资料,现记录如下:
1.Application: 在spark上构建的应用程序,由driver和executors构成;
2.work node:工作节点,在集群中能够运行app的任何节点。
3.driver:运行main函数并创建SparkContext的进程,在Client模式中,在集群外开启driver;cluster中,在集群中随机选择一台机器启动。
4.executor:在一个工作节点上为app开启的进程,每个app都有自己的executor,用于跑tasks和保存数据。
5.tasks:发送到其中一个executor的一个单元工作,rdd一般带有分区,每个分区在一个executor上执行的任务就是一个task。
6.job:由多个task组成的并行计算,响应action(如save,collect等),一个action算子可作为一个job。
7.stage:每个job分为更小并相互依赖的task集合,这里依赖分为宽依赖和窄依赖,而他们的边界就是stage的划分点。通过下图会有一个比较好的理解:
说明:上一步从B---->G由于从A---->B已经进行了groupBy,所以不需要像从F---->G那样。
阅读全文
0 0
- Spark术语理解
- Spark集群术语
- Spark术语解释
- spark核心术语解析
- Spark 基本术语表
- Spark术语解释
- Spark基本术语
- Spark的术语
- 一些重要的spark术语
- Spark组件和术语定义
- 音频采样术语理解
- 术语“流”的理解
- 基本术语概念理解
- 物理术语的理解
- zigbee术语理解
- C++箴言:理解Terminology术语
- C++箴言:理解Terminology术语
- Oracle 专用术语自我理解
- Linux目录结构
- 那些年我们在python掉进的坑系列之一pandas的to_sql
- 一套PHP做app接口的解决方案
- 网络共享遇到系统错误1219 “不允许一个用户使用一个以上用户名与服务器或共享资源的多重连接。中断与此服务器或共享资源的所有连接,然后再试一次。”
- 关于网页左右留出空白
- Spark术语理解
- Python第三方库——Matplotlib_在同个figure中绘制多个图并给出legend
- PL/SQL Developer几个使用小技巧
- android uboot 环境变量配置fb及双屏显示(vga、lcd)
- iOS_Mac开发常用资料
- Java数组使用总结
- Android开发--动态图片的显示
- spring boot 最佳实践(四)--Spring MVC
- <模型汇总-10> Variational AutoEncoder_变分自动编码器原理解析