R读书笔记之特征工程(一)空值处理

来源:互联网 发布:java开源博客系统源码 编辑:程序博客网 时间:2024/06/03 07:46

在特征处理中,会有空值的删除或者填充。

一:删除

    1一般删除是最简单的,用na.omit(data)就搞定,但是太粗暴了。

    2若是有的观测量空缺值太多的话,确实需要删除,因为用别的方法填充反而会导致模型偏差。

    那么肿么统计观测量的空值的个数捏?可以参考函数:apply(dataframe,1,function(x) sum(is.na(x))),其中is.na()返回

一个逻辑向量,求和时T为1,F为0,因此求和返回的是该行观测量空值的个数。

   用函数manyNAs(data,0.2)可以返回data中空值数量大于列数20%的行,因此可以data[-manyNAs(data,0.2),]快速对应

行,0.2参数可以自己修改。

二:填充

    待续

0 0
原创粉丝点击