Samza--基于hadoop的流处理引擎

来源:互联网 发布:小恶魔 知乎 编辑:程序博客网 时间:2024/05/17 21:51

Samza是近日由LinkedIn开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统。


组成Samza的三个部分

diagram-medium

使用hadoop的人都应该很熟悉这个体系架构

diagram-medium


最大的优点在于和Kafka以及YARN平台比较好的结合,yahoo的storm on yarn还不太成熟,至于Samza这个基于hadoop的流处理框架是否优于yahoo的以及storm,这个还不确定,需要实践去证明。

从官网介绍上看,Samza使用原生的YARN,而其他基于YARN的流处理框架基本都需要创建自己的资源管理框架或者在YARN的基础再运行一层。


官方文档 http://samza.incubator.apache.org/learn/documentation/0.7.0