storm从入门到精通 第二节 基础知识讲解
来源:互联网 发布:mysql 时间转时间戳 编辑:程序博客网 时间:2024/05/23 13:03
主要内容
Topologies
Streams
Spouts
Bolts
Stream groupings
Reliability
Tasks
Workers
Configuration
storm集群架构
Nimbus和Supervisor的关系就是传统的主从关系,它们单独都可以做成集群模式。Zookeeper相当于任务调度分配的作用。
Topology
一个topology是由spouts和bolts组成的图, 通过stream groupings将图中的spouts和bolts连接起来
Streams
数据tuple是包含多个键值对的列表,这些源源不断的tuple数据流称之为stream。也可以说一个消息流是一个没有边界的tuple序列, 而这些tuple序列会以一种分布式的方式并行地创建和处理。通过对stream中tuple序列中每个字段命名来定义stream。stream是storm里的关键抽象。
spouts
spout是Storm里面一个topology里面的消息生产者。一般来说消息源会从一个外部源读取数据并且向topology里面发出消息:tuple。(spout是数据tuple的产生者。这是相对的说法,如果在storm内部机制中,spout就是数据的生产者,水龙头意思估计就这么来的。那么从storm的外部来看,它就不是数据的生产者。因为真正生成数据的是kafak或文件系统,storm只不过是系统中的一个中间消息处理者)。
在设计spout时,尽量简单,保证速速处理的原则,避免在里面设计一些IO这些消耗资源和性能的操作。
在设计spout时,尽量简单,保证速速处理的原则,避免在里面设计一些IO这些消耗资源和性能的操作。
Bolts
所有的消息处理逻辑被封装在bolts里面。Bolts可以做很多事情:过滤,聚合,查询数据库等等。
Stream groupings
定义如何分配数据给bolts。7种类型的stream grouping:
Shuffle Grouping: 随机分组也是平均分组, 随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。
Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts里的一个task, 而不同的userid则会被分配到不同的bolts里的task。
All Grouping:广播发送,对于每一个tuple,所有的bolts都会收到。相当于Shuffle Grouping
Shuffle Grouping: 随机分组也是平均分组, 随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。
Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts里的一个task, 而不同的userid则会被分配到不同的bolts里的task。
All Grouping:广播发送,对于每一个tuple,所有的bolts都会收到。相当于Shuffle Grouping
=====下面这些不常用====
Global Grouping:全局分组, 这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
Non Grouping:不分组,这个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果, 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。
Direct Grouping: 直接分组, 这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id (OutputCollector.emit方法也会返回task的id)。
Local or shuffle grouping:如果目标bolt有一个或者多个task在同一个工作进程中,tuple将会被随机发生给这些tasks。否则,和普通的Shuffle Grouping行为一致。
Global Grouping:全局分组, 这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
Non Grouping:不分组,这个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果, 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。
Direct Grouping: 直接分组, 这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id (OutputCollector.emit方法也会返回task的id)。
Local or shuffle grouping:如果目标bolt有一个或者多个task在同一个工作进程中,tuple将会被随机发生给这些tasks。否则,和普通的Shuffle Grouping行为一致。
Reliability
Storm保证每个tuple会被topology完整的执行。Storm会追踪由每个spout tuple所产生的tuple树(一个bolt处理一个tuple之后可能会发射别的tuple到另外一个bolt,从而形成树状结构--有向无环图),并且跟踪这棵tuple树什么时候成功处理完。每个topology都有一个消息超时的设置,如果storm在这个超时的时间内检测不到某个tuple树到底有没有执行成功, 那么topology会把这个tuple标记为执行失败,并且过一会儿重新发射这个tuple(重发时是哪里失败发哪里)。
为了利用Storm的可靠性特性,在你发出一个新的tuple以及你完成处理一个tuple的时候你必须要通知storm。这一切是由OutputCollector来完成的。通过emit方法来通知一个新的tuple产生了,通过ack方法通知一个tuple处理完成了。(ack相当于一个通知,将处理的结果通知给storm)。
为了利用Storm的可靠性特性,在你发出一个新的tuple以及你完成处理一个tuple的时候你必须要通知storm。这一切是由OutputCollector来完成的。通过emit方法来通知一个新的tuple产生了,通过ack方法通知一个tuple处理完成了。(ack相当于一个通知,将处理的结果通知给storm)。
Tasks
每一个spout和bolt会被当作很多task在整个集群里执行。每一个executor对应到一个线程,在这个线程上运行多个task,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。你可以调用TopologyBuilder类的setSpout和setBolt来设置并行度(也就是有多少个task)。
Works
一个topology可能会在一个或者多个worker(工作进程)里面执行,每个worker是一个物理JVM并且执行整个topology的一部分。比如,对于并行度是300的topology来说,如果我们使用50个工作进程来执行,那么每个工作进程会处理其中的6个tasks。Storm会尽量均匀的工作分配给所有的worker。
Configuration
Storm里面有一堆参数可以配置用以调整Nimbus, Supervisor以及正在运行的topology的行为,一些配置是系统级别的,一些配置是topology级别的。default.yaml里面有所有的默认配置。你可以通过定义个storm.yaml在你的classpath里来覆盖这些默认配置。并且你也可以在代码里面设置一些topology相关的配置信息(使用StormSubmitter)
0 0
- storm从入门到精通 第二节 基础知识讲解
- storm从入门到精通 第四节 拓扑的并发
- storm从入门到精通 第七节 wordcount
- storm从入门到精通 第三节 storm消息机制
- Cmm从入门到精通的讲解
- jqury从入门到精通第二篇
- 实时计算开发-Storm从入门到精通【价值250】
- storm从入门到精通 第五节 Trident
- 实时计算开发-Storm从入门到精通
- 详细讲解Quartz如何从入门到精通 (1)
- 详细讲解Quartz如何从入门到精通 (2)
- 详细讲解Quartz如何从入门到精通 (3)
- 详细讲解Quartz如何从入门到精通 (4)
- 详细讲解Quartz如何从入门到精通 (5)
- 详细讲解Quartz如何从入门到精通 (6)
- 详细讲解Quartz如何从入门到精通
- 详细讲解Quartz如何从入门到精通
- 详细讲解Quartz如何从入门到精通
- GD绘图之设置文本背景色
- GDI之透明画刷(不适用背景)
- Python-模拟鼠标键盘动作
- SQL子查询的一些例子
- C++求pi
- storm从入门到精通 第二节 基础知识讲解
- mysql 里面的isnull()和ifnull() is null 和 is not null
- 【笔记】操作系统简介
- 有意思的Chrome扩展(待更新)
- GDI绘图之画刷
- 关于使用Transparent导致无法解析的外部符号的解决办法
- Hive 导入CSV文件
- android 查看应用签名
- 使图像中的某一种颜色不显示额解决方案