Alluxio使用场景

来源：互联网发布：入门鼠标推荐知乎编辑：程序博客网时间：2024/06/05 04:55

官网：http://www.alluxio.org

在Alluxio上运行spark ：http://www.alluxio.org/docs/1.6/cn/Running-Spark-on-Alluxio.html#规避-为hadoop配置指定fsalluxioimpl

Alluxio作为一个内存级的虚拟分布式存储系统有几个常见的使用场景：

计算层需要反复访问远程（比如在云端，或跨机房）的数据；
计算层需要同时访问多个独立的持久化数据源（比如同时访问S3和HDFS中的数据）；
多个独立的大数据应用（比如不同的Spark Job）需要高速有效的共享数据；
当计算层有着较为严重的内存资源、以及JVM GC压力，或者较高的任务失败率时，Alluxio作为输入输出数据的Off heap存储可以极大缓解这一压力，并使计算消耗的时间和资源更可控可预测。

详见：http://blog.csdn.net/alluxio/article/details/59536999

特点：多个Spark job以内存级速度共享相同的数据（可以做到多个job共享一个RDD）

阅读全文

0 0