Yarn下的并行计算框架
来源:互联网 发布:nginx gzip 配置 编辑:程序博客网 时间:2024/05/17 21:38
转自http://www.blogjava.net/shenh062326/archive/2012/06/03/379845.html
做为hadoop下一代集群资源管理和调度平台, 其上能支持多种计算框架, 本文就简要介绍一下这些计算框架.
1. MapReduce
首先是大家熟悉的mapreduce, 在MR2之前, hadoop包括HDFS和mapreduce, 做为hadoop上唯一的分布式计算框架, 其优点是用户可以很方便的编写分布式计算程序, 并支持许多的应用, 如hive, mahout, pig等. 但是其缺点是无法充分利用集群资源, 不支持DAG, 迭代式计算等. 为了解决这些问题, yahoo提出了Yarn (next generation mapreduce), 一个分布式集群集群资源管理和调度平台. 这样除了mapreduce外, 还可以支持各种计算框架.
2. Spark
Spark是一种与mapreduce相似的开源计算框架, 不同之处在于Spark在某些工作负载方面表现更优, 因为它使用了内存分布式数据集, 另外除了提供交互式查询外, 它还可以优化迭代工作负载.
3. Apache HAMA
Apache Hama 是一个运行在HDFS上的BSP(Bulk Synchronous Parallel大容量同步并行) 计算框架, 主要针对大规模科学计算,如矩阵, 图像, 网络算法等.当前它有一下功能:
- 作业提交和管理接口
- 单节点上运行多个任务
- 输入/输出格式化
- 备份恢复
- 支持通过Apache Whirr运行在云端
- 支持与Yarn一起运行
4. Apache Giraph
图像处理平台上运行这大型算法(如page rank, shared connections, personalization-based popularity 等)已经很流行, Giraph采用BSP模型(bulk-synchronous parallel model),可用于等迭代类算法。
5. Open MPI
这是一个高性能计算函数库,通常在HPC(High Performance Computing)中采用,与MapReduce相比,其性能更高,用户可控性更强,但编程复杂,容错性差,可以说,各有所长,在实际应用中,针对不同 该应用会采用MPI或者MapReduce。
6. Apache HBase
HBase是一个hadoop数据库, 其特点是分布式,可扩展的,存储大数据。当有需要随机,实时读写的大数据时, 使用HBase很适合.
本文参考:
http://hbase.apache.org/
- Yarn下的并行计算框架
- QT下的并行框架
- 并行计算框架 ParallelPython
- MapReduce:并行计算框架
- YARN-02-YARN的框架
- linux下并行计算
- Gearman 并行分布式计算框架
- MapReduce并行计算框架介绍
- dispy,asyncoro实现的分布式并行计算框架
- dispy,asyncoro实现的分布式并行计算框架
- 打造多合一的分布式并行计算框架
- {转}dispy,asyncoro实现的分布式并行计算框架
- dispy,asyncoro实现的分布式并行计算框架
- yarn框架的简介
- hadoop 2.6 的安装,调试,Yarn ,调用系统的 在Yarn框架下的 mapreduce 例子
- 并行计算的解药
- 并行计算的强大
- 并行计算的概念
- 【Java面试题】抽象类是否可继承实体类
- Java第五课
- 跨平台图表控件TeeChart使用教程:导入XML数据
- CListCtrl和CImageList配合显示缩略图
- UIAlertView
- Yarn下的并行计算框架
- linux的三类用户
- C/C++开发者必不可少的15款编译器+IDE
- 常用的web服务器
- shell中的特殊符号
- mysql中limit的用法详解[数据分页常用]
- MySQL不能连接的解决办法-绝对能解决
- setUID补充
- 修改APP名字