spark 中 rdd to dataframe 问题
来源:互联网 发布:c语言图书管理系统 编辑:程序博客网 时间:2024/05/16 16:21
在spark streaming 过程中遇到数据不对的地方,最有check 到时我们RDD到dataframe 出现了问题
rowRdd = rdd.flatMap(build_data_row)
statsRdd = rowRdd.map(map_to_id)
dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)
上面的程序中map_to_id 这个function 尽管return Row(.......) 但是在sqlContext.createDataFrame 中出现数据跟预期的不一样的情况
最后从spark 的文档发现, RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的, 如果没有指定的话,可能出现数据的错乱
尤其是在table 字段很多的情况下.
PS:
data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrame
schema – a StructType or list of names of columns
samplingRatio – the sample ratio of rows used for inferring
0 0
- spark 中 rdd to dataframe 问题
- spark convert RDD[Map] to DataFrame
- spark 中rdd与dataframe的合并
- spark 中RDD 和DataFrame以及DataSet
- Spark:DataFrame 与 RDD
- Spark ML 之 RDD to DataFrame (python版)
- 如何理解spark中RDD和DataFrame的结构?
- spark中RDD、DataFrame创建及互相转换
- Spark RDD 与 Pandas Dataframe
- Spark命令行测试转换RDD to DataFrame报Relative path in absolute URI错误-Win7
- Spark RDD、DataFrame和DataSet的区别
- Spark RDD、DataFrame和DataSet的区别
- Spark的RDD与DataFrame、DataSet
- Spark RDD、DataFrame和DataSet的区别
- Spark 之DataFrame与RDD 转换
- Spark RDD、DataFrame、DataSet区别和联系
- Spark RDD、DataFrame和DataSet的区别
- spark core组件:RDD、DataFrame和DataSet
- linode上快速建立Spark源码阅读环境
- 【t014】拯数
- POJ2425(树形,无向无环图博弈) SG函数
- redis数据库
- SpringMVC文件上传下载
- spark 中 rdd to dataframe 问题
- Linux学习之I/O内存访问详解
- Hive源码调试步骤
- <Linux多线程服务端编程>学习记录
- Java 网络编程简单学习笔记1
- 关于adb
- 72. Edit Distance
- HDU 4876 ZCC loves cards
- ubuntu中配置samba方法