Spark生态之Alluxio学习9---Auuxio(Tachyon)的优点
来源:互联网 发布:洛奇英雄传帧数优化 编辑:程序博客网 时间:2024/06/05 16:32
1.Spark的不同Job之间,两个不用的application需要从HDFS中加载两次同样的数据,而使用tachyon就不用了:
当两个Spark作业需要共享数据时,必须通过写磁盘操作。比如:作业1要先把生成的数据写入HDFS,然后作业2再从HDFS把数据读出来。在此,磁盘的读写可能造成性能瓶颈。
另外不同的应用框架也可以利用tachyon在内存中共享数据,比如Spark和Hadoop
2. 由于Spark会利用自身的JVM对数据进行缓存,当Spark程序崩溃时,JVM进程退出,所缓存数据也随之丢失,因此在工作重启时又需要从HDFS把数据再次读出。
如果利用Tachyon,相当于在disk和任务间加一层,就算JVM或者及其crash掉了,重启时可以在tachyon读取
不同进程间数据的共享
3. 当两个Spark作业需操作相同的数据时,每个作业的JVM都需要缓存一份数据,不但造成资源浪费,也极易引发频繁的垃圾收集,造成性能的降低。
=》不同job缓存同一份数据会增加内存开销,而是用tachyon就可以节省资源
参考:
【1】http://www.wtoutiao.com/p/hf6YDg.html
0 0
- Spark生态之Alluxio学习9---Auuxio(Tachyon)的优点
- Spark生态之Alluxio学习5--tachyon的几个问题(待解决)
- Spark生态之Alluxio学习2---Spark从tachyon中读取文件
- Spark生态之Alluxio学习6---集群版搭建和运行(Tachyon)
- Spark生态之Alluxio学习24--分别读取HDFS和Alluxio的数据进行line count比较分析
- Spark生态之Alluxio学习12--spark调用alluxio-1.3.0配置
- Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
- Spark生态之Alluxio学习3---机器重启后数据存储位置的变化
- Spark生态之Alluxio学习11--alluxio-1.3.0集群配置
- Spark生态之Alluxio学习22--saveAsTextFile alluxio后count (有bug)
- Spark生态之Alluxio学习8---集群版搭建问题之集群无法全部启动
- Spark生态之Alluxio学习1---单机版搭建和运行
- Spark生态之Alluxio学习4---下载源码通过maven install安装失败记录
- Spark生态之Alluxio学习7--下载源码通过maven安装成功
- Spark生态之Alluxio学习10--集群问法全部启动问题解决
- Spark生态之Alluxio学习17--多次运行Space Usage增加
- Tachyon(现名:Alluxio):Spark生态系统中的分布式内存文件系统
- Spark生态之Spark-csv学习1之安装和简单的examples
- javascript作用域链
- 安卓开发基础之java基础中this关键字解析
- android的消息机制之学习笔记
- ubuntu系统root登录
- Linux追求记(1)
- Spark生态之Alluxio学习9---Auuxio(Tachyon)的优点
- STL_学习_vector容器源码解析
- 关于xcode7.3设置启动图片的小提示
- 叠罗汉II
- 解决html输入中文后,在myEclipse中打开乱码问题。
- poj之旅——1979
- netstat 命令详解
- Android stuido快捷键集合
- java 中的基本数据类型的传递和引用数据类型的传递