pandas入门——数据缺失值处理

来源:互联网 发布:js 命名空间 编辑:程序博客网 时间:2024/05/23 19:44

数据缺失值处理

  • 将含有NaN值的行删除
# 导入pandas与numpy包import pandas as pdimport numpy as np# 创建时间序列date1 = pd.date_range("20170813",periods=6)df  = pd.DataFrame(data=np.random.randint(3,9,size=(6,9)),index=date1,columns=np.arange(9))#将第4行第5列数据赋值为nan  将第5行第7列数据赋值为nandf.iloc[4,5] = np.nandf.iloc[5,7] = np.nanpprint(df)
            0   1   2   3   4   5   6   7   82017-08-13  8   3   5   3   3   3.0 4   3.0 42017-08-14  8   6   8   8   8   5.0 6   5.0 62017-08-15  4   6   5   5   4   6.0 7   6.0 82017-08-16  3   3   3   3   6   7.0 4   7.0 52017-08-17  6   6   8   3   8   NaN 7   7.0 62017-08-18  4   7   4   4   3   4.0 3   NaN 6
# 将含有NaN值的行删除print(df.dropna(axis=0,how="any"))
            0   1   2   3   4   5   6   7   82017-08-13  8   3   5   3   3   3.0 4   3.0 42017-08-14  8   6   8   8   8   5.0 6   5.0 62017-08-15  4   6   5   5   4   6.0 7   6.0 82017-08-16  3   3   3   3   6   7.0 4   7.0 5
  • 将含有NaN值的列删除
print(df.dropna(axis=1,how="any"))
            0   1   2   3   4   6   82017-08-13  8   3   5   3   3   4   42017-08-14  8   6   8   8   8   6   62017-08-15  4   6   5   5   4   7   82017-08-16  3   3   3   3   6   4   52017-08-17  6   6   8   3   8   7   62017-08-18  4   7   4   4   3   3   6
  • 将NaN值进行填充
# 将NaN值使用0进行填充print(df.fillna(value=0))
            0   1   2   3   4   5   6   7   82017-08-13  8   3   5   3   3   3.0 4   3.0 42017-08-14  8   6   8   8   8   5.0 6   5.0 62017-08-15  4   6   5   5   4   6.0 7   6.0 82017-08-16  3   3   3   3   6   7.0 4   7.0 52017-08-17  6   6   8   3   8   0.0 7   7.0 62017-08-18  4   7   4   4   3   4.0 3   0.0 6
  • 判断数据集中是否含有缺失值
# 返回数据集大小的数据  适合小数据集print(df.isnull())
            0   1   2   3   4   5   6   7   82017-08-13  False   False   False   False   False   False   False   False   False2017-08-14  False   False   False   False   False   False   False   False   False2017-08-15  False   False   False   False   False   False   False   False   False2017-08-16  False   False   False   False   False   False   False   False   False2017-08-17  False   False   False   False   False   True    False   False   False2017-08-18  False   False   False   False   False   False   False   True    False
# 判断数据集中是否含有缺失值 大数据集情况下  np.any()函数用来判断一个数据集中是否含有True值print(np.any(df.isnull()))
True
原创粉丝点击