【Python数据分析与展示】(五)pandas库数据分析

来源:互联网 发布:mac touch bar fn 编辑:程序博客网 时间:2024/06/05 02:54

数据的排序

两种方法:根据索引进行排序 .sort_index(axis = 0,ascending = True)
.sort_value() 根据指定轴上的数据进行排序
对于Series .sort_value(axis = 0,ascending = True)
对于DataFrame .sort_value(by,axis = 0,ascending = True)

b = DataFrame(np.random.randint(0,20,(5,4)),columns = ["a","b","c","d"])#   a    b   c   d0   13  12  15  61   19  6   0   172   18  13  6   173   0   5   19  144   11  10  1   12b.sort_index(ascending = False)#    a   b   c   d4   11  10  1   123   0   5   19  142   18  13  6   171   19  6   0   170   13  12  15  6b.sort_values('a')#    a   b   c   d3   0   5   19  144   11  10  1   120   13  12  15  62   18  13  6   171   19  6   0   17

基本统计函数比如: .sum() .count() .mean() .median() .var() .std() .min() .max() 都是默认0轴计算的
只适用于Series的函数:argmin() argmax() 返回自动索引的最大值最小值的索引位置
idxmin() idxmax() 返回自定义索引的最大值最小值的索引位置
最有用的方法 describ()或者.describe()[“列名”]
如果是DataFrame建议加上.iloc或loc

累计统计函数
.cumsum() 累计和 .cumprod() 累计积 .cummax .cummin() 依次给出前面数字的最大值,最小值
滚动计算函数
.rolling(w).sum() .rolling(w).mean() .rolling(w).var() .rolling(w).std() .rolling(w).min() .rolling(w).max()
计算相邻的w个元素的统计函数
相关性函数
.cov() 协方差 .corr() 相关系数