pandas入门——数据缺失值处理
来源:互联网 发布:js 命名空间 编辑:程序博客网 时间:2024/05/23 19:44
数据缺失值处理
- 将含有NaN值的行删除
# 导入pandas与numpy包import pandas as pdimport numpy as np# 创建时间序列date1 = pd.date_range("20170813",periods=6)df = pd.DataFrame(data=np.random.randint(3,9,size=(6,9)),index=date1,columns=np.arange(9))#将第4行第5列数据赋值为nan 将第5行第7列数据赋值为nandf.iloc[4,5] = np.nandf.iloc[5,7] = np.nanpprint(df)
0 1 2 3 4 5 6 7 82017-08-13 8 3 5 3 3 3.0 4 3.0 42017-08-14 8 6 8 8 8 5.0 6 5.0 62017-08-15 4 6 5 5 4 6.0 7 6.0 82017-08-16 3 3 3 3 6 7.0 4 7.0 52017-08-17 6 6 8 3 8 NaN 7 7.0 62017-08-18 4 7 4 4 3 4.0 3 NaN 6
# 将含有NaN值的行删除print(df.dropna(axis=0,how="any"))
0 1 2 3 4 5 6 7 82017-08-13 8 3 5 3 3 3.0 4 3.0 42017-08-14 8 6 8 8 8 5.0 6 5.0 62017-08-15 4 6 5 5 4 6.0 7 6.0 82017-08-16 3 3 3 3 6 7.0 4 7.0 5
- 将含有NaN值的列删除
print(df.dropna(axis=1,how="any"))
0 1 2 3 4 6 82017-08-13 8 3 5 3 3 4 42017-08-14 8 6 8 8 8 6 62017-08-15 4 6 5 5 4 7 82017-08-16 3 3 3 3 6 4 52017-08-17 6 6 8 3 8 7 62017-08-18 4 7 4 4 3 3 6
- 将NaN值进行填充
# 将NaN值使用0进行填充print(df.fillna(value=0))
0 1 2 3 4 5 6 7 82017-08-13 8 3 5 3 3 3.0 4 3.0 42017-08-14 8 6 8 8 8 5.0 6 5.0 62017-08-15 4 6 5 5 4 6.0 7 6.0 82017-08-16 3 3 3 3 6 7.0 4 7.0 52017-08-17 6 6 8 3 8 0.0 7 7.0 62017-08-18 4 7 4 4 3 4.0 3 0.0 6
- 判断数据集中是否含有缺失值
# 返回数据集大小的数据 适合小数据集print(df.isnull())
0 1 2 3 4 5 6 7 82017-08-13 False False False False False False False False False2017-08-14 False False False False False False False False False2017-08-15 False False False False False False False False False2017-08-16 False False False False False False False False False2017-08-17 False False False False False True False False False2017-08-18 False False False False False False False True False
# 判断数据集中是否含有缺失值 大数据集情况下 np.any()函数用来判断一个数据集中是否含有True值print(np.any(df.isnull()))
True
阅读全文
0 0
- pandas入门——数据缺失值处理
- pandas处理缺失数据
- pandas的基本用法(四)——处理缺失数据
- pandas处理缺失值
- 利用Pandas进行数据分析(3)——统计、处理缺失值、层次化索引
- pandas处理,填充缺失数据
- python数据分析pandas包入门学习(四)处理缺失数据
- pandas 学习(四)—— 数据处理(清洗)、缺失值的处理
- 利用Python进行数据分析 pandas基础: 处理缺失数据
- 数据清洗(二)——缺失值处理
- 决策树——缺失数据的处理
- python3.5——Pandas模块使用(下)——缺失值处理和层次索引
- pandas:填充缺失值
- 【R】数据缺失值处理
- sklearn 数据缺失值处理
- 数据中的缺失值处理
- 数据清洗---缺失值处理
- 数据挖掘-处理缺失值
- 如何在脚本配置环境变量后立即使用环境变量
- 【芝麻信用对接】-decode_private_key_error
- svg 例子
- (并查集)More is better--HDOJ
- 最小二乘法c实现
- pandas入门——数据缺失值处理
- jQuery-(3)事件
- xlistView的adapter的相关操作
- 博弈-HDU2897
- shell脚本解压多个文件
- java调用Python脚本
- 传递表达式(pass-through lambdas)的替代方案
- HTTP 协议详解
- easyUI修改信息时表单输入框的默认值