什么是RDD以及如何创建RDD
来源:互联网 发布:社会工程学软件 编辑:程序博客网 时间:2024/06/05 19:29
RDD全称Resilient Distributed DataSets,弹性的分布式数据集。是Spark的核心内容。
RDD是只读的,不可变的数据集,也拥有很好的容错机制。他有5个主要特性
- A list of partitions 分片列表,数据能为切分才好做并行计算
- A function for computing each split 一个函数计算一个分片
- A list of dependencies on other RDDs 对其他RDD的依赖列表
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hashpartitioned)
RDD 可选的,key-value型的RDD,根据hash来分区
- Optionally, a list of preferred locations to compute each split on (e.g. block
locations for an HDFS file) 可选的,每一个分片的最佳计算位置 RDD是Spark所有组件运行的底层系统,RDD是一个容错的,并行的数据结构,它提供了丰富的数据操作和API接口
在Spark中创建RDD的创建方式大概可以分为三种:
从集合中创建RDD:
而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD
从外部存储创建RDD:
从其他RDD创建:
阅读全文
0 0
- 什么是RDD以及如何创建RDD
- RDD创建
- 创建RDD
- RDD创建
- RDD
- RDD
- RDD
- RDD
- rdd
- RDD
- RDD
- RDD
- rdd
- RDD
- 究竟什么是RDD
- 创建RDD和RDD的持久化
- RDD的创建
- RDD创建彻底解密
- java导入Excel解析单元格(可以解析文本、日期、数字、公式单元格)
- 自定义View画五角星
- 欢迎使用CSDN-markdown编辑器
- js线条特效
- Tensorflow:转置函数 transpose解析
- 什么是RDD以及如何创建RDD
- 重写Overload和重载Override的区别?
- canvas(11/30)--------事件处理(鼠标处理)精灵表坐标查看器
- Python学习笔记一:数据类型转换
- MQ入门总结(四)ActiveMQ的部署和集群
- shell 使用杂记(一)
- java-String字符串类
- 机器视觉与这个多彩的世界火花
- ubuntu16.04 heirloom-mailx 通过外部SMTP服务器发送邮件