python/pandas/Numpy数据分析-统计描述,唯一值,值计数

来源:互联网 发布:微信备案域名 编辑:程序博客网 时间:2024/05/25 21:36

pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series

注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。

count   非 NA 值的数量describe    针对 Series 或 DF 的列计算汇总统计min , max   最小值和最大值argmin , argmax 最小值和最大值的索引位置(整数)idxmin , idxmax 最小值和最大值的索引值quantile    样本分位数(01sum 求和mean    均值median  中位数mad 根据均值计算平均绝对离差var 方差std 标准差skew    样本值的偏度(三阶矩)kurt    样本值的峰度(四阶矩)cumsum  样本值的累计和cummin , cummax 样本值的累计最大值和累计最小值cumprod 样本值的累计积diff    计算一阶差分(对时间序列很有用)pct_change  计算百分数变化

唯一值与值计数

obj=Series(list('cadaabbcc'))uniques=obj.unique()uniquesc    3a    3b    2d    1dtype: int64

排序的话

uniques.sort()uniquesarray(['a', 'b', 'c', 'd'], dtype=object)

value_counts用于计算一个Series中各值出现的频率.

obj.value_counts()a    3d    1b    2c    3dtype: int64

value_counts还是一个顶级pandas方法,可用于任何数组或序列

pd.value_counts(obj.values, sort=False)a    3d    1b    2c    3dtype: int64

这里写图片描述

0 0