Storm简介

来源：互联网发布：淘宝买家皇冠怎么来的编辑：程序博客网时间：2024/06/08 03:56

1. 架构

1.1 简介

分布式 && 实时计算系统。storm对于实时计算的意义类似于hadoop对于批处理的意义。

storm的流式处理计算模式保证了任务能够只进行一次初始化，就能够持续计算，同时使用了ZeroMQ（Netty）作为底层消息队列，有效地提高了整体架构的数据处理效率，避免了Hadoop的瓶颈。

Storm的适用场景：

流数据处理，Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。
分布式rpc，由于storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式rpc框架来使用。
持续计算，任务一次初始化，一直运行，除非你手动kill它。

1.2 架构设计

与Hadoop主从架构一样，Storm也采用Master/Slave体系结构，分布式计算由Nimbus和Supervisor两类服务进程实现，Nimbus进程运行在集群的主节点，负责任务的指派和分发，Supervisor运行在集群的从节点，负责执行任务的具体部分。

这里写图片描述

Nimbus：负责资源分配和任务调度。
Supervisor：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。
Worker：运行具体处理组件逻辑的进程。
Task：worker中每一个spout/bolt的线程称为一个task。同一个spout/bolt的task可能会共享一个物理线程，该线程称为executor。

1.3 编程模型

storm架构中使用Spout/Bolt编程模型来对消息进行流式处理。消息流是storm中对数据的基本抽象，一个消息流是对一条输入数据的封装，源源不断输入的消息流以分布式的方式被处理，Spout组件是消息生产者，是storm架构中的数据输入源头，它可以从多种异构数据源读取数据，并发射消息流，Bolt组件负责接收Spout组件发射的信息流，并完成具体的处理逻辑。在复杂的业务逻辑中可以串联多个Bolt组件，在每个Bolt组件中编写各自不同的功能，从而实现整体的处理逻辑。

这里写图片描述

2. 概念

2.1 topology

Storm集群中有两种节点，一种是控制节点(Nimbus节点)，另一种是工作节点(Supervisor节点)。所有Topology任务的提交必须在Storm客户端节点上进行(需要配置 storm.yaml文件)，由Nimbus节点分配给其他Supervisor节点进行处理。 Nimbus节点首先将提交的Topology进行分片，分成一个个的Task，并将Task和Supervisor相关的信息提交到 zookeeper集群上，Supervisor会去zookeeper集群上认领自己的Task，通知自己的Worker进程进行Task的处理。

总体的Topology处理流程图为：

这里写图片描述

2.2 Component

Storm中，Spout和Bolt都是Component。所以，Storm定义了一个名叫IComponent的总接口。

全家谱如下：绿色部分是我们最常用、比较简单的部分。红色部分是与事务相关的

这里写图片描述

2.2.1 Spout

Storm中的消息源，用于为Topology生产消息(数据)，一般是从外部数据源(如Message Queue、RDBMS、NoSQL、Realtime Log ）不间断地读取数据并发送给Topology消息(tuple元组)。

消息源spout是Storm里面一个topology里面的消息生产者。一般来说消息源会从一个外部源读取数据并且向topology里面发出消息：tuple。Spout可以是可靠的也可以是不可靠的，如果这个tuple没有被storm成功处理，可靠的消息源spouts可以重新发射一个tuple，但是不可靠的消息源spouts一旦发出一个tuple就不能重发了。

消息源可以发射多条消息流stream。使用OutputFieldsDeclarer。declareStream来定义多个stream，然后使用SpoutOutputCollector来发射指定的stream。代码上是这样的：collector.emit(new Values(str));

Spout类里面最重要的方法是nextTuple。要么发射一个新的tuple到topology里面或者简单的返回如果已经没有新的tuple。要注意的是nextTuple方法不能阻塞，因为storm在同一个线程上面调用所有消息源spout的方法。另外两个比较重要的spout方法是ack和fail。storm在检测到一个tuple被整个topology成功处理的时候调用ack，否则调用fail。storm只对可靠的spout调用ack和fail。

2.2.2 Bolt

Storm中的消息处理者，用于为Topology进行消息的处理。

所有的消息处理逻辑被封装在bolts里面。Bolts可以做很多事情：过滤，聚合，查询数据库等等。

Bolts可以简单的做消息流的传递(来一个元组,调用一次execute)。复杂的消息流处理往往需要很多步骤，从而也就需要经过很多bolts。比如算出一堆图片里面被转发最多的图片就至少需要两步：第一步算出每个图片的转发数量，第二步找出转发最多的前10个图片。(如果要把这个过程做得更具有扩展性那么可能需要更多的步骤)。

Bolts可以发射多条消息流, 使用OutputFieldsDeclarer.declareStream定义stream，使用OutputCollector.emit来选择要发射的stream。

Bolts的主要方法是execute，它以一个tuple作为输入，bolts使用OutputCollector来发射tuple(spout使用SpoutOutputCollector来发射指定的stream)，bolts必须要为它处理的每一个tuple调用OutputCollector的ack方法，以通知Storm这个tuple被处理完成了，从而通知这个tuple的发射者spouts。一般的流程是: bolts处理一个输入tuple, 发射0个或者多个tuple, 然后调用ack通知storm自己已经处理过这个tuple了。storm提供了一个IBasicBolt会自动调用ack。

2.3 Topology运行方式

本地运行的提交方式：

config.setMaxTaskParallelism(1);LocalCluster cluster = new LocalCluster();cluster.submitTopology(TOPOLOGY_NAME, config, builder.createTopology());Utils.sleep(10000);cluster.killTopology(TOPOLOGY_NAME);cluster.shutdown();

分布式提交方式：

StormSubmitter.submitTopology(TOPOLOGY_NAME, conf, builder.createTopology());

3. storm命令

提交Topologies

命令格式：storm jar 【jar路径】 【拓扑包名.拓扑类名】【stormIP地址】【storm端口】【拓扑名称】【参数】例如：storm jar /home/storm/storm-starter.jar storm.starter.WordCountTopology wordcountTop;

停止Topologies

命令格式：storm kill 【拓扑名称】例如：storm kill wordcountTop  杀掉wordcountTop拓扑

显示当前的Topologies列表

命令格式:storm list

启动后台程序

# 启动nimbus后台程序命令格式：storm nimbus# 启动supervisor后台程序命令格式：storm supervisor

4. 参考

storm 架构与原理

Storm概念讲解和工作原理介绍

storm - 常用命令

0 0