spark持久化(缓存)
来源:互联网 发布:js math ceil 编辑:程序博客网 时间:2024/05/16 01:48
1、惰性求值:
RDD转化过程都是惰性求值的。这意味着在被调用行动操作之前spark不会开始计算,spark会在内部记录下所要求执行的操作的相关信息,我们可以把每个RDD看作我们通过转化操作构建出来的、记录如何计算数据的指定列表。把数据读取到RDD的操作同样是惰性的。
2、持久化缓存
SparkRDD是惰性求值的,而有时候我们希望能够多次使用同一个RDD。如果简单地对RDD调用行动操作,Spark每次都会重算RDD以及它的所有依赖。这在迭代算法中消耗很大。
此时我们可以让spark对数据进行持久化操作。当我们让Spark持久化存储一个RDD时,计算出的RDD节点会分别保存它们所求出的RDD分区数据。如果一个有持久化数据的节点发生故障,Spark会在需要用到缓存数据时重算丢失的数据分区。我们可以把我们的数据备份到多个节点避免这种情况发生。
注意:序列化是执行上面的基础。
val result = input.map { x => x * x result.persist(StorageLevel.DISK_ONLY) println(result.count())println(result.collect.mkString(","))
Spark还有一个unpersist()方法,调用该方法可以手动把持久化RDD从缓存中移除。
1 0
- spark持久化(缓存)
- Learning Spark笔记5-持久化(缓存)
- Spark Streaming:缓存与持久化机制
- Spark RDD 持久化
- Spark的持久化
- android持久化缓存
- [Spark]Spark RDD 指南五 持久化
- Spark-rdd的持久化
- Spark PG6. RDD 持久化
- Spark的持久化简记
- Spark RDD持久化策略
- spark的持久化存储
- spark中的RDD持久化
- spark(9)-RDD持久化、广播、累加器(course18)
- Ignite缓存持久化例子
- redis缓存数据持久化
- Python3.X 爬虫实战(缓存与持久化)
- EhCache缓存框架(2)-EhCache持久化
- 关于phpcms v9 如何在首页调用单网页面内容的代码
- SGL系列 LED调光电路设计 ANBOZ
- 像“匠人”一样做一名程序员
- OpenCV学习笔记(九)谈谈中值滤波无效性
- 帮学生做两道笔试题
- spark持久化(缓存)
- ubuntu搭建git服务器教程及常见问题
- Mysql 开启慢查询
- 数据构造之存储过程
- sql性能调优
- cocoaPods执行update时候报错 error: RPC failed; curl 56 SSLRead() return error -36
- 匿名内部类的使用
- <感悟1>
- 自定义dialog 可以读秒自动关闭