python/pandas/Numpy数据分析-统计描述，唯一值，值计数

来源：互联网发布：微信备案域名编辑：程序博客网时间：2024/05/25 21:36

pandas 对象拥有一组常用的数学和统计方法，大部分属于简约统计，用于从Series中提取一个值，或者从DataFrame中提取一列或者一行Series

注意：与NumPy数组相比，这些函数都是基于没有缺失数据的建设构建的，也就是说：这些函数会自动忽略缺失值。

count   非 NA 值的数量describe    针对 Series 或 DF 的列计算汇总统计min , max   最小值和最大值argmin , argmax 最小值和最大值的索引位置（整数）idxmin , idxmax 最小值和最大值的索引值quantile    样本分位数（0 到 1）sum 求和mean    均值median  中位数mad 根据均值计算平均绝对离差var 方差std 标准差skew    样本值的偏度（三阶矩）kurt    样本值的峰度（四阶矩）cumsum  样本值的累计和cummin , cummax 样本值的累计最大值和累计最小值cumprod 样本值的累计积diff    计算一阶差分（对时间序列很有用）pct_change  计算百分数变化

唯一值与值计数

obj=Series(list('cadaabbcc'))uniques=obj.unique()uniquesc    3a    3b    2d    1dtype: int64

排序的话

uniques.sort()uniquesarray(['a', 'b', 'c', 'd'], dtype=object)

value_counts用于计算一个Series中各值出现的频率.

obj.value_counts()a    3d    1b    2c    3dtype: int64

value_counts还是一个顶级pandas方法，可用于任何数组或序列

pd.value_counts(obj.values, sort=False)a    3d    1b    2c    3dtype: int64

这里写图片描述

0 0