spark parquet 从hdfs 上读 和写
来源:互联网 发布:linux运维面试会问什么 编辑:程序博客网 时间:2024/06/05 10:46
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.SQLContext;import org.apache.spark.sql.SaveMode;/** * @author Administrator * */public class GenericLoadSave {public static void main(String[] args) {SparkConf conf = new SparkConf() .setAppName("GenericLoadSave").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);SQLContext sqlContext = new SQLContext(sc);//parquet 带表结构 ???DataFrame usersDF = sqlContext.read().load("hdfs://hadoop1:9000/input/users.parquet");//没有指定format 就是写入到磁盘的数据格式 默认是parquetusersDF.select("name", "favorite_color").write().mode(SaveMode.Overwrite).save("hdfs://hadoop1:9000/output/namesAndFavColors_scala"); DataFrame pDF = sqlContext.read().parquet("hdfs://hadoop1:9000/output/namesAndFavColors_scala");pDF.show();}}
0 0
- spark parquet 从hdfs 上读 和写
- spark parquet 从hdfs 上读 和写 scala 版本
- python spark中parquet文件写到hdfs,同时避免太多的小文件(block小文件合并)
- HDFS读和写
- 基于spark2.0整合spark-sql + mysql + parquet + HDFS
- spark 批量读取HDFS(hive分区)parquet文件
- spark从hdfs上读取文件运行wordcount
- spark从hdfs上读取文件运行wordcount
- spark从hdfs上读取文件运行wordcount
- Parquet_11. Spark: DataFrames 和 Parquet -- 待完善
- spark streaming 写hdfs问题
- Spark生态之Alluxio学习25--spark从HDFS和Alluxio读取时间比较
- spark sql加载parquet格式和json格式数据
- spark操作parquet文件
- spark 读取hive parquet
- Spark Parquet使用
- Spark+Parquet分片规则
- spark streaming 的wordcount程序,从hdfs上读取文件中的内容并计数
- tf.concat与numpy.concatenate
- 在慕课上学习的,HTML和CSS基础学习笔记1
- 生成对抗网络
- 算法题(1)
- 数据结构与算法分析笔记与总结(java实现)--链表15:链表回文判断问题
- spark parquet 从hdfs 上读 和写
- Linux C笔记(1)
- 记录csdn第一篇博客
- 在DOS下引用jar包
- 【JZOJ3852】单词接龙
- xml的4中解析方式与详解
- 使用IntelliJ IDEA 配置Maven(入门)
- 总结 C++中 基本内置类型 数据所占大小 和数据类型
- spark parquet 从hdfs 上读 和写 scala 版本