spark读取json,parquet文件
来源:互联网 发布:iphone笔记软件 编辑:程序博客网 时间:2024/05/29 02:44
spark支持的一些常见的格式:
文本文件,无任何的格式
json文件,半结构化
parquet,一种流行的列式存储格式
sequencefile,一种用于key-value的hadoop文件格式,如果需要读hdfs数据的话,通常走hive的比较多。
在企业中很少用,原因是写sql的时候,能用sparksession解决的,都不会去弄rdd的各种transform和action
import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * Created by zengxiaosen on 16/9/23. */object operJson_and_parquet { def main(args: Array[String]): Unit = { val sparkconf = new SparkConf().setAppName("operJsonAndParquet").setMaster("local") val ss = SparkSession.builder() .config(sparkconf) .getOrCreate() val sc = ss.sparkContext import ss.implicits._ //读文本文件,生成普通rdd,可以通过toDF转化为dataframe,进而使用sql val fileRDD = sc.textFile("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/2015082818") ss.read.json("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/people.json") .createOrReplaceTempView("people") val rs = ss.sql("select * from people") rs.printSchema() rs.show() ss.read.parquet("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/users.parquet") .createOrReplaceTempView("users") val rs2 = ss.sql("select * from users") rs2.printSchema() rs.show() sc.stop() ss.stop() }}
0 0
- spark读取json,parquet文件
- spark读取gz文件与parquet文件
- spark 读取hive parquet
- spark操作parquet文件
- spark 批量读取HDFS(hive分区)parquet文件
- 利用 sparksession读取Parquet,Json格式文件
- spark 读取json文件并分析
- Java API读取CDH-Hadoop Parquet文件
- Hadoop Parquet File 文件的读取
- spark 2.1 读取parquet外部表返回null
- spark sql加载parquet格式和json格式数据
- spark sql读取json
- Spark Parquet使用
- Spark+Parquet分片规则
- Parquet_7. 通过命令行来读取 Parquet 文件 -- 待完善
- Spark 读取HDFS文件
- Spark读取文件
- Spark读取HDFS文件
- JAVA在Windows7上的环境变量设置
- float失真问题
- [LeetCode] 205. Isomorphic Strings
- 怎样防止App在后台运行,点击应用桌面图标重新启动?
- 微信小程序开发 --安装篇
- spark读取json,parquet文件
- Promise and Add-on, Think Asynchronously with Callback!
- 一张图说明servlet、servlet容器、web服务器、Tomcat之间的关系
- javascript之闭包详解
- 配置github以及上传本地项目至github
- windows下python安装Numpy、Scipy、matplotlib模块
- checkbox单选
- C++面试题(二)
- 直线向量方程