对spark dataframe join之后的列值NULL值进行填充为指定数值的操作
来源:互联网 发布:webdriver执行js方法 编辑:程序博客网 时间:2024/06/07 23:03
众所周知,两个数据集如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。
这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。
针对这种问题,当然从最简单的dataframe.map来处理是一种快速方法。
然而今天在针对这个问题解决的时候,发现spark还提供了一个高级操作,就是:na.fill的函数。
其处理过程就是先构建一个MAP,如下:
val map = Map("列名1“ -> 指定数字, "列名2“ -> 指定数字, .....)
然后执行dataframe.na.fill(map),即可实现对NULL值的填充。
0 0
- 对spark dataframe join之后的列值NULL值进行填充为指定数值的操作
- spark-DataFrame学习记录-[2]解决spark-dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
- 如何避免spark dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
- pandas对指定列进行填充
- 对DataFrame列名进行更改的两种方式
- MySQL Left JOIN时指定NULL列返回特定值
- Spark中的DataFrame的getAs方法如果取到的值是null的处理
- python如何对dataframe下面的值进行大规模赋值
- spark dataframe新增列的处理
- 对混合数值,字符,null的字段进行排序
- 我对DataFrame的理解(Spark)
- 使用pandas对两个dataframe进行join
- 编辑指定列,并且是值为空的时候才可以进行编辑
- pandas dataframe行和列的操作
- DB2 插入操作sql错误号-302 输入的值对指定的列无效解决办法
- Winform中DataGridVieW进行ContextMenuScript操作获取右键选定行指定列的值
- 排序对null值的操作
- [MSSQL]试图将非可空值的列的值设置为 NULL
- Spring通过dataSource获取数据库的连接
- 数字签名和数字证书是什么
- word使用小技巧
- AVFoundation 『入门』-- 以微信小视屏为例
- MVC刷新页面,手动刷新和自动刷新
- 对spark dataframe join之后的列值NULL值进行填充为指定数值的操作
- Yeoman官方教程:用Yeoman和AngularJS做Web应用
- 8916系列------system reboot kernel篇
- 猴子选大王
- 成员内部类.局部内部类.静态内部类.匿名内部类的区别
- visualVM 打开报cannot find java 1.7 or higher错误
- java中ThreadLocal类的使用
- 自增自减运算符
- Linux用过命令