Spark菜鸟进阶
来源:互联网 发布:js向数组中添加元素 编辑:程序博客网 时间:2024/06/05 20:25
关于 Spark SQL/DataFrame( Spark1.4.1 版本)
Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块,该模块里最重要的概念就是 DataFrame, Spark 的 DataFrame 是基于早期版本中的 SchemaRDD。Spark DataFrame 以 RDD 为基础,但是带有 Schema 信息,它类似于传统数据库中的二维表格。
Spark SQL 模块目前支持将多种外部数据源的数据转化为 DataFrame,并像操作 RDD 或者将其注册为临时表的方式处理和分析这些数据。当前支持的数据源有:
Json
文本文件
RDD
关系数据库
Hive
Parquet
一旦将 DataFrame 注册成临时表,我们就可以使用类 SQL 的方式操作这些数据。
Spark 2.0介绍
RDD是Spark中重要的API,然而它的创建和操作得使用sparkContext提供的API;对于RDD之外的其他东西,我们需要使用其他的Context。比如对于流处理来说,我们得使用StreamingContext;对于SQL得使用sqlContext;而对于hive得使用HiveContext。然而DataSet和Dataframe提供的API逐渐称为新的标准API,我们需要一个切入点来构建它们,所以在 Spark 2.0中我们引入了一个新的切入点(entry point):SparkSession
SparkSession实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext,所以计算实际上是由sparkContext完成的。
SparkSession的设计遵循了工厂设计模式
//创建SQLSessionSparkSession sparkSession = SparkSession.builder. master("local") .appName("spark session example") .getOrCreate();//创建hiveContextSparkSession sparkSession = SparkSession.builder. master("local") .appName("spark session example") .enableHiveSupport() .getOrCreate();
- Spark菜鸟进阶
- 菜鸟进阶
- 多线程菜鸟进阶 一
- Android菜鸟进阶汇总
- 菜鸟部署测试spark
- spark实战进阶
- Spark进阶(一)
- Spark进阶(二)
- Spark进阶(三)
- Spark进阶(四)
- spark进阶(五)
- Spark进阶(八)
- spark-高手进阶
- 菜鸟的进阶之路
- django 菜鸟篇+进阶篇
- django 菜鸟篇+进阶篇
- 菜鸟进阶01-html/css
- 2016Bytecup之菜鸟进阶
- Django技术详解(六)开发Admin
- 比特币或区块链的创业思路【结合自己行业特点,寻找和区块链联姻的机会】
- ViewPager的OnPageChangeListener滑动事件分析
- MyCat生产实践--一致性hash分片&扩容
- Java基础知识
- Spark菜鸟进阶
- javascript设计模式-工厂模式(4)
- 【机器学习详解】SMO算法剖析
- Unexpected char 0x20 at 19 in header name: x-upyun-api-version
- FlycoTabLayout 开源项目制作app首页
- 判断为空
- cordova学习笔记
- URL中"#" "?" "&"号的作用
- discuz插件开发新手入门 超详细