Tachyon 分布式内存文件系统
来源:互联网 发布:flash网页制作软件 编辑:程序博客网 时间:2024/05/22 03:21
原文地址:http://blog.csdn.net/oopsoom/article/details/38438321
随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时的处理,或者说怎么样把离线批处理的速度再提升到一个新的高度,是当前研究的重点。近年来,内存的吞吐量成指数倍的增长,而磁盘的吞吐量增长的缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高技术效率的优化点。
目前已经使用基于内存计算的分布式计算框架有:Spark,Impala以及SAP的HANA以及DBMS2。但是其中不乏有一些还是有文件落地磁盘的操作,如果能让这些落地磁盘的操作全部落地到一个共享的内存中,这些基于内存的计算框架效率会更高。
Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。。
一、Why Tachyon:
Tachyon能解决什么问题:
1、不同FrameWork之间共享内存数据Slow问题
给定一个场景,我的MapReduce任务的输出结果会存入到Tachyon里,Spark的Job会从Tachyon里读取MapReduce任务的输出作为输入。如果把Disk当作文件的落地,那么写的性能是十分低下。但是如果把Memory当作落地,写的性能是非常高的,fast write,以便Spark Job不会感觉到这是2个计算框架的操作,因为写和读的速度都非常快。同样的你可以用Impala的输出结果当作Spark的输入。
2、Spark的Executor Crash问题
3、内存冗余问题
4、GC时间过长
二、Tachyon架构
三、Fault Tolerant
四、总结
- Tachyon 分布式内存文件系统
- Tachyon 分布式内存文件系统
- 分布式内存文件系统Tachyon
- 分布式内存文件系统:Tachyon
- 分布式内存文件系统Tachyon
- 分布式内存文件系统:Tachyon
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- Tachyon:Spark生态系统中的分布式内存文件系统
- 大数据时代——分布式内存文件系统:Tachyon
- 采用服务窃听电话
- 如何找回Oracle中system,sys用户的密码
- c# 截屏代码
- Iterator和ListIterator
- 游泳学习,强身健体,链接
- Tachyon 分布式内存文件系统
- bmp转jpg(使用libjpeg)
- 错排
- zoj 1240 IBM Minus One
- LeetCode | Convert Sorted List to Binary Search Tree(链表转换成二叉搜索树)
- Hive常用日期函数整理
- ArcSDE的二种连接方式的解释
- c#使用itextsharp的实例
- 性别在数据库中存的是1和2,在页面要展示男和女