storm基础一

来源：互联网发布：java中常用的集合类编辑：程序博客网时间：2024/06/05 19:52

基础一：

1、 Storm是一个分布式的、可靠的、容错的实时数据流处理系统。
2、 Storm一般是有numbus所在的计算机和supervisor所在的计算机组成了物理环境
3、名词解释：
1）Nimbus： Storm集群的主控节点
2） Supervisor： Storm集群的计算节点，
3） Worker：执行任务的进程
4）executor：执行任务的线程
5） Topology：运行于Storm集群的任务
6） Nimbus： Storm集群的主控节点
7） Spout：源数据的获取者。用于从外部数据源(如kafka)不间断读取数据并下游发送数据
8）Bolt：数据的处理者。可执行查询、过滤、聚合及各种复杂运算操作，Bolt的数据处理结果可以作为下游Bolt的输入不断迭代
9） Tuple：组件（Spout/Bolt）之间数据交换的数据模型。
10） ACK：Storm的对消息的跟踪机制
基础二：

1、 this.collector.emit(new Values(str), str);
把str以键值对的形式添加到队列中去，供下一个环节读取数据，new Values(str)是在str的基础上添加了一个些字符串，可以再下一个环节根据这个new Values(str)来分组读取
2、 builder.setBolt("word-normalizer", new MyBolt1(),2).shuffleGrouping("word-reader");
builder.setBolt("word-normalizer", new MyBolt1(),4).fieldsGrouping("word-reader");
构造方法中的第三个参数控制的是并发量，shuffleGrouping指的是内部随机并发，
fieldsGrouping指的是内部按照key来分配，同样的key会走到同一个bolt里面，如果里面部分key很多的时候，可能造成一个bolt工作，其他bolt都闲置的情况
3、 spark hadoop storm区别：
Hadoop使用磁盘作为中间交换的介质，而storm的数据是一直在内存中流转的。
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了。
Spark流模块先汇聚批量数据然后进行数据块分发（视作不可变数据进行处理），而Storm是只要接收到数据就实时处理并分发。
Spark和Storm设计相反，而Spark Steaming才和Storm类似，前者有数据平滑窗口（sliding window），而后者需要自己去维护这个窗口

阅读全文

0 0