RDD创建的两种方式
来源:互联网 发布:网络系统集成工程师 编辑:程序博客网 时间:2024/04/30 16:51
There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.
第一种创建方式:并行化的方式val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)
分为几个RDD和系统的核数是有关的核数越多效率越好。
Once created, the distributed dataset (distData) can beoperated on in parallel.For example, we might call distData.reduce((a, b) => a + b)to add up the elements of the array. We describe operations on distributed datasets later on.One important parameter for parallel collections is the number of partitions to cut the dataset into. Spark willrun one task for each partition of the cluster. Typically you want 2-4 partitions for each CPU in your cluster. Normally,Spark tries to set the number of partitions automatically based on your cluster. However, you can also set it manually by passing it as a second parameter to parallelize (e.g. sc.parallelize(data, 10)).Note: some places in the code use the term slices (a synonym for partitions) to maintain backward compatibility.
第二种创建方式:通过读取外部文件的方式(External Datasets)scala> val distFile = sc.textFile("data.txt")distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10]
Spark can create distributed datasets from any storage source supported by Hadoop, including yourlocal file system, HDFS, Cassandra, HBase, Amazon S3, etc. Spark supports text files, SequenceFiles, and any other Hadoop InputFormat.
- RDD创建的两种方式
- RDD转化为DataFrames的两种创建方式
- Java接入Spark之创建RDD的两种方式和操作RDD
- Java接入Spark之创建RDD的两种方式和操作RDD
- RDD的几种创建方式
- Spark将RDD转换成DataFrame的两种方式
- Spark将RDD转换成DataFrame的两种方式
- Spark RDD/DataFrame map保存数据的两种方式
- spark rdd转dataframe的两种方式
- 动手实战创建RDD的三种方式
- [1.2]Spark core编程(一)之RDD总论与创建RDD的三种方式
- spark中创建RDD的方式
- 键值对RDD的创建方式
- spark创建RDD方式
- RDD转换为DataFrame的两种方式及spark sql的简单实例
- [GDI+] 创建Images的两种方式
- 创建XMLHttpRequest对象的两种方式
- 动态创建option的两种方式
- Useful Command in Ubuntu
- WebStorm 2017激活方式
- Android7.0以上(私有目录被限制访问)
- Facet切面统计(高版本中为aggregations)
- LLE流行嵌入式降维算法
- RDD创建的两种方式
- cad shx 字体读取
- 关于URL接口中数据的获取问题
- 欧拉角EulerAngle
- php-fpm超时时间设置request_terminate_timeout分析
- mysql 5.7.20下载安装
- springMVC前台ajax上传excel文件并且解析其中内容
- BZOJ 4326: NOIP2015 运输计划 二分答案 树上差分
- 搭建一个基本的MVP框架