【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用006-Slot和Parallelism的深入分析001

来源:互联网 发布:何炅主持网络综艺节目 编辑:程序博客网 时间:2024/06/06 15:46

一、flink架构

这里写图片描述

1.flink是一个主从结构的分布式程序,它由client和cluster两部分组成。2.cluster由主节点JobManager(JM)和从节点TaskManager组成(TM)。    a.JM负责协调分布式执行:调度Task、协调检查点、协调失效恢复等工作。      JM至少要有一个,也可有多个。多个JM可基于zookeeper做HA,一个active,其余standby。    b.TM负责执行一个具体的Dataflow的Task,缓存并交换streams等工作。      TM至少要有一个,也可有多个,多个TM组成worker集群,并发执行任务。    c.JM和TM有多种部署方式,可以选择使用裸机部署,使用container部署,使用yarn部署。      只要JM和TM能通信即可,这样JM就能下发任务到TM,TM也能执行任务并上报TM.3.client属于flink架构的一部分,但不属于flink集群。它的工作是连接user和cluster.    a.client能够将user提交的application分析成Dataflow提交给JM.JM会分配给TM做具体的执行工作。      在提交完Dataflow可以关闭,也可以不关闭.    b.client不关闭的话还可以接受cluster处理进度报告,以便user能跟着任务的运行情况。

二、程序(Progrram)和数据流(Dataflows)

1.程序(Progrram)

这里写图片描述

1.Progrram是user通过java,scala,python等编程语言调用flink相应的api编写而成。2.Program中用户将data从source通过一系列的Transformation处理成期望的结果,然后sink到外部系统。3.一般来说Transformation中都有一个Operator,但有时一个Transformation也可包括了多个Operator

2.数据流(Dataflows)

这里写图片描述

1.program经过client解析形成Dataflow2.在Dataflow中主要包括Streams和Transformations两个概念。  a.Transformations是指对数据的转化操作。  a.Stream是指数据转化过程中的中间结果。3.将Transformation做点,Stream做边可把Dataflow映射成一个有向无环图(DAG)。  在执行程序的过程中可以根据程序的DAG做计算优化,可以合并或省略一些中间步骤。
阅读全文
1 0
原创粉丝点击