Spark菜鸟进阶

来源:互联网 发布:js向数组中添加元素 编辑:程序博客网 时间:2024/06/05 20:25

关于 Spark SQL/DataFrame( Spark1.4.1 版本)

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块,该模块里最重要的概念就是 DataFrame, Spark 的 DataFrame 是基于早期版本中的 SchemaRDD。Spark DataFrame 以 RDD 为基础,但是带有 Schema 信息,它类似于传统数据库中的二维表格。
Spark SQL 模块目前支持将多种外部数据源的数据转化为 DataFrame,并像操作 RDD 或者将其注册为临时表的方式处理和分析这些数据。当前支持的数据源有:
Json
文本文件
RDD
关系数据库
Hive
Parquet
一旦将 DataFrame 注册成临时表,我们就可以使用类 SQL 的方式操作这些数据。

Spark 2.0介绍

RDD是Spark中重要的API,然而它的创建和操作得使用sparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用sqlContext;而对于hive得使用HiveContext。然而DataSet和Dataframe提供的API逐渐称为新的标准API,我们需要一个切入点来构建它们,所以在 Spark 2.0中我们引入了一个新的切入点(entry point):SparkSession
  SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的。
 SparkSession的设计遵循了工厂设计模式 

//创建SQLSessionSparkSession sparkSession = SparkSession.builder.        master("local")        .appName("spark session example")        .getOrCreate();//创建hiveContextSparkSession sparkSession = SparkSession.builder.        master("local")        .appName("spark session example")        .enableHiveSupport()        .getOrCreate();
原创粉丝点击