Pandas使用经验小结

来源:互联网 发布:中国等级观念知乎 编辑:程序博客网 时间:2024/06/04 23:22

先引包

from pandas import Series,DataFrameimport pandas as pd
  • 读取CSV文件
df=pd.read_csv(文件名,header=0,encoding='gbk')data=DataFrame(df)
  • 查看索引
data.index
  • 查看列
data.columns
  • 查看前几个或后几个
data.head(5)data.tail(5)
  • 查看重复值
data.duplicated()

返回结果为Bool类型,即如果前面出现过,则再次出现时返回true,否则返回false。

  • 删除重复值
data=data.drop_duplicates()
  • 统计某一列空值个数
data['列名'].isnull().value_counts()
  • 正则匹配
pattern=r'2016-02-29.+'data[data['time'].str.contains(pattern)]['time'].head(5)

示例中返回的是time那一列满足pattern的前五个

1 0