Hadoop Storm Spark比较

来源：互联网发布：手机移动数据无法上网编辑：程序博客网时间：2024/06/05 00:55

Hadoop

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘;
Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。
假设利用hadoop，则需要先存入hdfs，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了，再小的话hdfs上会一堆小文件），hadoop开始计算时，1分钟已经过去了，然后再开始调度任务又花了一分钟，然后作业运行起来，假设机器特别多，几钞钟就算完了，然后写数据库假设也花了很少的时间，这样，从数据产生到最后可以使用已经过去了至少两分多钟。

Storm是内存级计算，数据直接通过网络导入内存,磁盘访问延迟约为内存访问延迟的75000倍;
storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。
流式计算是数据产生时，则有一个程序去一直监控日志的产生，产生一行就通过一个传输系统发给流式计算系统，然后流式计算系统直接处理，处理完之后直接写入数据库，每条数据从产生到写入数据库，在资源充足时可以在毫秒级别完成。
Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据；

=====================
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了

注释：
1. 延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。
2. 吞吐，指系统单位时间处理的数据量。

阅读全文

0 0