Spark菜鸟进阶

来源：互联网发布：js向数组中添加元素编辑：程序博客网时间：2024/06/05 20:25

关于 Spark SQL/DataFrame（ Spark1.4.1 版本）

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块，该模块里最重要的概念就是 DataFrame, Spark 的 DataFrame 是基于早期版本中的 SchemaRDD。Spark DataFrame 以 RDD 为基础，但是带有 Schema 信息，它类似于传统数据库中的二维表格。
Spark SQL 模块目前支持将多种外部数据源的数据转化为 DataFrame，并像操作 RDD 或者将其注册为临时表的方式处理和分析这些数据。当前支持的数据源有：
Json
文本文件
RDD
关系数据库
Hive
Parquet
一旦将 DataFrame 注册成临时表，我们就可以使用类 SQL 的方式操作这些数据。

Spark 2.0介绍

RDD是Spark中重要的API，然而它的创建和操作得使用sparkContext提供的API；对于RDD之外的其他东西，我们需要使用其他的Context。比如对于流处理来说，我们得使用StreamingContext；对于SQL得使用sqlContext；而对于hive得使用HiveContext。然而DataSet和Dataframe提供的API逐渐称为新的标准API，我们需要一个切入点来构建它们，所以在 Spark 2.0中我们引入了一个新的切入点(entry point)：SparkSession
　　SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。
　SparkSession的设计遵循了工厂设计模式　

//创建SQLSessionSparkSession sparkSession = SparkSession.builder.        master("local")        .appName("spark session example")        .getOrCreate();//创建hiveContextSparkSession sparkSession = SparkSession.builder.        master("local")        .appName("spark session example")        .enableHiveSupport()        .getOrCreate();

阅读全文

0 0