Hadoop Storm Spark比较
来源:互联网 发布:手机移动数据无法上网 编辑:程序博客网 时间:2024/06/05 00:55
Hadoop
Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;
Hadoop M/R基于HDFS,需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等,效率较低。
假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。
Strom
Storm是内存级计算,数据直接通过网络导入内存,磁盘访问延迟约为内存访问延迟的75000倍;
storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。
流式计算是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。
Storm 基于ZeroMQ这个高性能的消息通讯库,不持久化数据;
=====================
两者面向的领域也不完全相同,一个是批量处理,基于任务调度的;另外一个是实时处理,基于流。
以水为例,Hadoop可以看作是纯净水,一桶桶地搬;而Storm是用水管,预先接好(Topology),然后打开水龙头,水就源源不断地流出来了
Spark
备注
注释:
1. 延时 , 指数据从产生到运算产生结果的时间,“快”应该主要指这个。
2. 吞吐, 指系统单位时间处理的数据量。
- hadoop,spark,storm比较
- Hadoop Storm Spark比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- Hadoop、storm和Spark的区别、比较
- hadoop、storm和spark的区别、比较
- hadoop、storm和spark的区别、比较
- 继续大数据研究---Storm Spark Hadoop比较
- Hadoop、Storm和Spark 三者的区别、比较
- Hadoop、Spark和Storm
- Hadoop,spark,storm
- Storm, Spark, Hadoop
- Hadoop,Spark和Storm
- Hadoop,Spark和Storm
- HADOOP与STORM比较
- Storm和Hadoop比较
- mac 安装 tomcat
- 计算机编码问题ASCII,UTF-8,Unicode
- 【mysql 重置密码】快速重置mysql密码
- 舞步学院PUA就是个坑,大家千万不要信(一)
- [jzoj5122]【2017.5.28提高组模拟】Simple Game [未完]
- Hadoop Storm Spark比较
- ajax弹窗 select回显
- linux下挂载磁盘
- LibRTMP优化之调整输出块大小
- Memcached,Redis, MongoDB的区别
- JSTL标签库学习
- 用于
- Spring Aop实例之xml配置
- linux上为IPV6设置静态路由,写入文件