Spark的术语
来源:互联网 发布:计算机动画算法与技术 编辑:程序博客网 时间:2024/06/04 23:48
Spark运行模式
运行环境
模式
描述
Local
本地模式
常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
Standalone
集群模式
典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持 ZooKeeper来实现HA
On yarn
集群模式
运行在yarn资源管理器框架之上,由yarn负责资源管理,Spark负责任务调度和计算
On mesos
集群模式
运行在mesos资源管理器框架之上,由mesos负责资源管理,Spark负责任务调度和计算
On cloud
集群模式
比如AWS的EC2,使用这个模式能很方便的访问Amazon的S3;
Spark支持多种分布式存储系统:HDFS和S3
1.6.2 Spark常用术语
术语
描述
Application
Spark的应用程序,包含一个Driver program和若干Executor
SparkContext
Spark应用程序的入口,负责调度各个运算资源,协调各个Worker Node上的Executor
Driver Program
运行Application的main()函数并且创建SparkContext
Executor
是为Application运行在Worker node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上。
每个Application都会申请各自的Executor来处理任务
Cluster Manager
在集群上获取资源的外部服务
(例如:Standalone、Mesos、Yarn)
Worker Node
集群中任何可以运行Application代码的节点,运行一个或多个Executor进程
Task
运行在Executor上的工作单元
Job
SparkContext提交的具体Action操作,常和Action对应
Stage
每个Job会被拆分很多组task,每组任务被称为Stage,也称TaskSet
RDD
是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类
DAGScheduler
根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
TaskScheduler
将Taskset提交给Worker node集群运行并返回结果
Transformations
是Spark API的一种类型,Transformation返回值还是一个RDD,
所有的Transformation采用的都是懒策略,如果只是将Transformation提交是不会执行计算的
Action
是Spark API的一种类型,Action返回值不是一个RDD,而是一个scala集合;计算只有在Action被提交的时候计算才被触
- Spark的术语
- 一些重要的spark术语
- spark的基本概念(术语词典)
- Spark集群术语
- Spark术语解释
- spark核心术语解析
- Spark 基本术语表
- Spark术语解释
- Spark术语理解
- Spark基本术语
- Spark里几个重要的概念及术语
- Spark里几个重要的概念及术语
- Spark组件和术语定义
- spark核心术语和运行流程
- Spark核心原理1:相关术语介绍
- spark内核揭秘-01-spark内核核心术语解析
- spark学习笔记(2)spark基本概念和术语解释
- 大数据Spark企业级实战版【学习笔记】----Spark术语
- GPS芯片获取的卫星时间会出现快几秒的原因
- SpringXML配置文件中的头部定义简析
- 关于产品经理的三个文档(MRD)(二)
- 【Spring】Spring MVC原理及配置详解
- 分布式存储系统设计(2)—— 数据分片
- Spark的术语
- 前端bug汇总
- 剑指offer——从尾到头打印链表
- 安装OTRS工单管理系统
- ubuntu安装scrapy后报错
- EditText中imeOptions属性
- 机器学习算法小整理之KNN
- 用SwipeMenuListView库实现listview左滑删除功能
- Image Completion with Deep Learning in TensorFlow【DCGAN,图像补全】