主流的三大分布式计算系统:Hadoop,Spark和Storm
来源:互联网 发布:数据库系统概论 答案 编辑:程序博客网 时间:2024/06/09 23:48
由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据分析处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据分析处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
阅读全文
0 0
- 主流的三大分布式计算系统:Hadoop,Spark和Storm
- Hadoop、Storm和Spark 三者的区别、比较
- “大数据” Hadoop,Spark和Storm
- “大数据” Hadoop,Spark和Storm
- 大数据之” Hadoop,Spark和Storm
- 类Hadoop的高效分布式计算系统Spark
- 类Hadoop的高效分布式计算系统Spark
- 大数据处理的三种框架:Storm,Spark和Samza
- 大数据处理的三种框架:Storm,Spark和Samza
- 系统的学习大数据分布式计算spark技术
- Hadoop、Spark和Storm
- Hadoop,Spark和Storm
- Hadoop,Spark和Storm
- Storm, Spark, Hadoop三个大数据处理工具谁将成为主流
- Storm, Spark, Hadoop三个大数据处理工具谁将成为主流
- Storm, Spark, Hadoop三个大数据处理工具谁将成为主流?
- Storm, Spark, Hadoop三个大数据处理工具谁将成为主流
- hadoop、storm和spark的区别、比较
- 【转】javascript 中英文字符长度和截断处理
- json字符串与对象的转换
- C语言实验——逆置正整数
- Ruby学习笔记(19)_继承
- 解锁或者修改oracle 数据库密码
- 主流的三大分布式计算系统:Hadoop,Spark和Storm
- 最大子段和
- Android开发实践:屏幕旋转的处理
- ServletContext
- Spark性能优化之资源调优
- transformDexArchiveWithExternalLibsDexMergerForDebug unable to merge dex 问题
- System.arraycopy()方法详解
- XILINK SDK怎么使用自带串口终端
- SpringMVC默认单例的,高并发情况下,如何保证性能的?