Spark数据本地性
来源:互联网 发布:淘宝校园卡 编辑:程序博客网 时间:2024/06/06 06:54
1、文件系统本地性
第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;
2、内存本地性
第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;
3、LRU置换
如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取;
如果数据不仅缓存到内存而且还缓存到磁盘上,此时数据被置换出内存,则从磁盘上直接读取;
BlockManage.scala
putBlockInfo.synchronized { var marked = false try { if (level.useMemory) { // Save it just to memory first, even if it also has useDisk set to true; we will // drop it to disk later if the memory store can't hold it. val res = data match { ... } size = res.size res.data match { case Right(newBytes) => bytesAfterPut = newBytes case Left(newIterator) => valuesAfterPut = newIterator } // Keep track of which blocks are dropped from memory res.droppedBlocks.foreach { block => updatedBlocks += block } }......
注:只要设置了内存存储,即使也设置了磁盘存储,也只会先存在内存中,不是一开始就存放在磁盘上,只有当内存不够时才会置换到磁盘上去。
0 0
- Spark数据本地性
- Spark数据本地性
- Spark数据本地性
- spark读取hdfs数据本地性异常
- Spark性能调优-数据本地性
- spark读取hdfs数据本地性异常
- Spark性能调优-数据本地性
- Spark不同Cluster Manager下的数据本地性表现
- Spark 之 Stage划分、数据本地性算法实现
- Spark性能优化第五季-数据本地性调优
- TaskScheduler解密:Spark shell案例,TaskScheduler和SchedulerBackend、FIFO与FAIR模式调度解密、Task数据本地性资源分配
- RegionServer数据本地性
- idea本地调试spark
- spark本地模式
- Spark 本地模式
- python本地开发spark
- spark本地调试hive
- 本地执行Spark程序示例
- 欢迎使用CSDN-markdown编辑器
- 8.非变异算法
- (完整版)原因可能是堆被损坏,这也说明 中或它所加载的任何DLL 中有bug】的解决
- qq授权登录
- JPA, hibernate, jdbcTemplate(建议使用)区别
- Spark数据本地性
- 开源多媒体项目汇总与分析
- RecyclerView 结合 卡片翻转效果
- CODE【VS】1384 黑色星期五(计算某一天是星期几的公式)
- java编程思想读书笔记-第四章初始化和清除
- [JVM]Java内存区域与内存溢出异常
- JS面向对象编程--第二章 数据类型,数组,循环,条件表达式
- HDU 3984 迷宫问题
- 输入年月日时分秒,输出该年月日时分秒的下一秒