数据分析随记

来源:互联网 发布:赵丽颖野心知乎 编辑:程序博客网 时间:2024/04/28 14:10

1、简略查看数据信息,查看A和B的相关系数

import pandas as pdtrain = pd.read_csv('')print train.info()#查看简略信息print train[A].corr(train[B])#查看A和B的相关系数
2、统计各个值得出现频率
print train[A].value_counts()

3、缺失值替换

df.loc[ (df.SaleType.isnull()), 'SaleType' ] = 9

4、查看统计缺失值

NAs = pd.concat([train.isnull().sum(), test.isnull().sum()], axis=1, keys=['Train', 'Test'])NAs[NAs.sum(axis=1) > 0]

5,取出频率出现前5特特征取值

fea_top5=train['positionID'].value_counts().nlargest(5).index.tolist()

6,对dataframe某一列进行排序

df.sort(columns='c')








0 0