storm从入门到精通 第二节 基础知识讲解

来源:互联网 发布:mysql 时间转时间戳 编辑:程序博客网 时间:2024/05/23 13:03

主要内容

    Topologies
    Streams
    Spouts
    Bolts
    Stream groupings
    Reliability
    Tasks
    Workers
    Configuration

storm集群架构


Nimbus和Supervisor的关系就是传统的主从关系,它们单独都可以做成集群模式。Zookeeper相当于任务调度分配的作用。

Topology

一个topology是由spouts和bolts组成的图, 通过stream groupings将图中的spouts和bolts连接起来


Streams

    数据tuple是包含多个键值对的列表,这些源源不断的tuple数据流称之为stream。也可以说一个消息流是一个没有边界的tuple序列, 而这些tuple序列会以一种分布式的方式并行地创建和处理。通过对stream中tuple序列中每个字段命名来定义stream。stream是storm里的关键抽象。

spouts

    spout是Storm里面一个topology里面的消息生产者。一般来说消息源会从一个外部源读取数据并且向topology里面发出消息:tuple。(spout是数据tuple的产生者。这是相对的说法,如果在storm内部机制中,spout就是数据的生产者,水龙头意思估计就这么来的。那么从storm的外部来看,它就不是数据的生产者。因为真正生成数据的是kafak或文件系统,storm只不过是系统中的一个中间消息处理者)。
    在设计spout时,尽量简单,保证速速处理的原则,避免在里面设计一些IO这些消耗资源和性能的操作。

Bolts

所有的消息处理逻辑被封装在bolts里面。Bolts可以做很多事情:过滤,聚合,查询数据库等等。

Stream groupings

定义如何分配数据给bolts。7种类型的stream grouping:
    Shuffle Grouping
: 随机分组也是平均分组, 随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。
    Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts里的一个task, 而不同的userid则会被分配到不同的bolts里的task。
    All Grouping:广播发送,对于每一个tuple,所有的bolts都会收到。相当于Shuffle Grouping
    =====下面这些不常用====
    Global Grouping:全局分组, 这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。
    Non Grouping:不分组,这个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果, 有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。
    Direct Grouping: 直接分组, 这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的task的id (OutputCollector.emit方法也会返回task的id)。
Local or shuffle grouping:如果目标bolt有一个或者多个task在同一个工作进程中,tuple将会被随机发生给这些tasks。否则,和普通的Shuffle Grouping行为一致。

Reliability

    Storm保证每个tuple会被topology完整的执行。Storm会追踪由每个spout tuple所产生的tuple树(一个bolt处理一个tuple之后可能会发射别的tuple到另外一个bolt,从而形成树状结构--有向无环图),并且跟踪这棵tuple树什么时候成功处理完。每个topology都有一个消息超时的设置,如果storm在这个超时的时间内检测不到某个tuple树到底有没有执行成功, 那么topology会把这个tuple标记为执行失败,并且过一会儿重新发射这个tuple(重发时是哪里失败发哪里)。
    为了利用Storm的可靠性特性,在你发出一个新的tuple以及你完成处理一个tuple的时候你必须要通知storm。这一切是由OutputCollector来完成的。通过emit方法来通知一个新的tuple产生了,通过ack方法通知一个tuple处理完成了。(ack相当于一个通知,将处理的结果通知给storm)。

Tasks

    每一个spout和bolt会被当作很多task在整个集群里执行。每一个executor对应到一个线程,在这个线程上运行多个task,而stream grouping则是定义怎么从一堆task发射tuple到另外一堆task。你可以调用TopologyBuilder类的setSpout和setBolt来设置并行度(也就是有多少个task)。

Works

    一个topology可能会在一个或者多个worker(工作进程)里面执行,每个worker是一个物理JVM并且执行整个topology的一部分。比如,对于并行度是300的topology来说,如果我们使用50个工作进程来执行,那么每个工作进程会处理其中的6个tasks。Storm会尽量均匀的工作分配给所有的worker。

Configuration

    Storm里面有一堆参数可以配置用以调整Nimbus, Supervisor以及正在运行的topology的行为,一些配置是系统级别的,一些配置是topology级别的。default.yaml里面有所有的默认配置。你可以通过定义个storm.yaml在你的classpath里来覆盖这些默认配置。并且你也可以在代码里面设置一些topology相关的配置信息(使用StormSubmitter)


0 0
原创粉丝点击