Hadoop + storm = summingbird

来源:互联网 发布:供给侧改革 知乎 编辑:程序博客网 时间:2024/06/04 19:45

Twitter 推出一个开源系统,旨在减低批处理和流式处理之间的交换,做法是把二者组合在一起成为一个混合系统。

Twitter 用Hadoop做批处理,用Storm做流式处理,混合系统称为Summingbird。


此类混合系统实际上越来越常见,很多公司认识到他们没办法单靠Hadoop在实时世界生存。我们以前报道过不少公司——其中有Gravity,LinkedIn和Netflix——他们也做过类似的东西。Summingbird也许有点不太一样,原因是Summingbird要处理的数据同时来自Hadoop和Storm,和管道式地处理几个不同的系统不一样。


Yahoo的开源项目 Storm-YARN其实是在Hadoop群里面运行Storm,可以让Storm访问基于Hadoop的数据存储,也值得看看。