关于DataSet和DataFrame
来源:互联网 发布:沃尔什变换矩阵 编辑:程序博客网 时间:2024/05/18 03:51
刚才开始看SparkSql,把看过程中的了解的东西行记下来
1,关于类型方面:
- DataSet是带有类型的(typed),例:
DataSet<Persono>
。取得每条数据某个值时,使用类似person.getName()
这样的API,可以保证类型安全。 - 而DataFrame是无类型的,是以列名来作处理的,所以它的定义为
DataSet<Row>
。取得每条数据某个值时,可能要使用row.getString(0)
或col("department")
这样的方式来取得,无法知道某个值的具体的数据类型。
2,关于schema。DataFrame带有schema,而DataSet没有schema。schema定义了每行数据的“数据结构”,就像关系型数据库中的“列”,schema指定了某个DataFrame有多少列。
参考:
Spark RDD、DataFrame和DataSet的区别
Spark SQL, DataFrames and Datasets Guide
Class Dataset API
0 0
- 关于DataSet和DataFrame
- DataFrame格式化和RDD/Dataset/DataFrame互转
- 区别RDD、DataFrame和DataSet
- Spark SQL、DataFrame和Dataset
- Spark DataFrame和Dataset区别
- RDD和DataFrame和Dataset比较
- Spark RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame、DataSet区别和联系
- Spark RDD、DataFrame和DataSet的区别
- spark core组件:RDD、DataFrame和DataSet
- RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- less命令
- 经典排序算法
- 二叉树的最小深度
- java生成xml文件
- Red Hat Linux安装CentOS的yum源
- 关于DataSet和DataFrame
- Java序列化与反序列化
- MongoDB3.2 Java连接方式
- 更改applicationid以及package以免覆盖原有app
- marginnote修改
- NYOJ 2546 饭卡(动态规划 0 1背包)
- HDU 2795 Billboard 线段树单点更新
- HoloToolkit5.5.0 API详解
- activiti-5.22.0 mysql配置