Pandas数据特征分析
来源:互联网 发布:三国杀制作软件 编辑:程序博客网 时间:2024/06/06 00:35
Pandas数据特征分析
数据的排序
.sort_index()方法在指定轴上根据索引进行排序,默认升序。默认0轴升序:.sort_index(axis=0, ascending=True)。
.sort_values()方法在指定轴上根据数值进行排序,默认升序。
Series.sort_values(axis=0, ascending=True)
DataFrame.sort_values(by, axis=0, ascending=True)
by : axis轴上的某个索引或索引列表。
NaN统一放到排序末尾
数据的基本统计分析
基本的统计分析函数:适用于Series和DataFrame类型数据
方法
说明
.sum()
计算数据的总和,按0轴计算,下同
.count()
非NaN值的数量
.mean() .median()
计算数据的算术平均值、算术中位数
.var() .std()
计算数据的方差、标准差
.min() .max()
计算数据的最小值、最大值
.describe()
针对0轴(各列)的统计汇总
适用于Series类型
方法
说明
.argmin() .argmax()
计算数据最大值、最小值所在位置的索引位置(自动索引)
.idxmin() .idxmax()
计算数据最大值、最小值所在位置的索引位置(自定义索引)
数据的累计统计分析
累计统计分析函数:适用于Series和DataFrame类型,累计计算
方法
说明
.cumsum()
依次给出前1、2、…、n个数的和
.cumprod()
依次给出前1、2、…、n个数的积
.cummax()
依次给出前1、2、…、n个数的最大值
.cummin()
依次给出前1、2、…、n个数的最小值
累计统计分析函数:适用于Series和DataFrame类型,滚动计算(窗口计算)
方法
说明
.rolling(w).sum()
依次计算相邻w个元素的和
.rolling(w).mean()
依次计算相邻w个元素的算术平均值
.rolling(w).var()
依次计算相邻w个元素的方差
.rolling(w).std()
依次计算相邻w个元素的标准差
.rolling(w).min() .max()
依次计算相邻w个元素的最小值和最大值
数据的相关性分析
两个事物,表示为X和Y,如何判断它们之间的存在相关性?
相关性:
• X增大,Y增大,两个变量正相关
• X增大,Y减小,两个变量负相关
• X增大,Y无视,两个变量不相关
协方差:
•协方差>0, X和Y正相关
•协方差<0, X和Y负相关
•协方差=0, X和Y独立无关
Person相关系数:
R的取值范围为[-1, 1]
• 0.8‐1.0 极强相关
• 0.6‐0.8 强相关
• 0.4‐0.6 中等程度相关
• 0.2‐0.4 弱相关
• 0.0‐0.2 极弱相关或无相关
相关性分析函数:适用于Series和DataFrame类型
方法
说明
.cov()
计算协方差矩阵
.corr()
计算相关系数矩阵, Pearson、Spearman、Kendall等系数
小结:
- Pandas数据特征分析
- Python数据分析与展示(6)——Pandas数据特征分析
- pandas 数据分析入门
- Pandas数据分析基础
- python数据分析---Pandas
- Python 数据分析 pandas
- pandas数据分析0723
- 数据分析pandas用法
- 数据分析模块pandas
- 数据分析(2)-pandas
- Python 数据分析-pandas 基础
- 数据分析框架Pandas入门
- 数据分析框架Pandas进阶
- pandas数据分析入门二
- wind pandas 数据分析绘图
- 数据特征分析
- 数据分析:pandas分析链家网二手房信息
- 数据分析之Pandas-05数据加载
- php中FILES的注意点
- 多线程
- JavaScript中的小技巧和注意点(一)
- Android自定义控件:做一个拼图游戏
- 【C++】指针测试,单步调试,细观指针本身和指针变量所有变化
- Pandas数据特征分析
- EJB到底是什么
- 通过模拟浏览器获取cookies
- 基于Flume的美团日志收集系统(一)架构和设计
- 微信分享我的好友,分享朋友圈需要注意的问题
- 线程池
- 程序员面试金典:集合栈、用两个栈实现队列
- Android7.0适配教程,心得
- 有两个不同list,需要对比两个list内容且输出差异的内容