统计分析基础-描述数据
来源:互联网 发布:闪迪固态硬盘优化软件 编辑:程序博客网 时间:2024/05/01 03:19
衡量集中趋势
均值mean
可以迭代计算均值会受到异常值的影响,使得平均值难以具备中位数的代表性
众数mode
均匀分布不存在众数,多峰分布存在多个众数。数据集中的所有分值都会影响众数。直方图中的众数会随着组距而改变从同一总体中抽取出的样本,每一个样本的众数不一定相同。众数没有计算公式
中位数median
robust:处理高偏斜分布更能反应集中趋势
图片来自《数据挖掘:概念与技术》p.31
度量数据散布
极差
截尾 cut tail
四分位数极差 interquartile range IQR
IQR = Q3 - Q150%的数据在IQR间IQR不会受到数据集中每个值的影响IQR不受异常值影响
异常点 outlier
outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR
如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间
离均差 deviation from mean
平均偏差:正负项会相互抵消绝对偏差,平均绝对偏差平方偏差,平均平方偏差
方差 variance
标准差 standard deviation
图片来自 Coursera Statistic with R
样本标准差与总体方差关系
图片来自 Udacity
0 0
- 统计分析基础-描述数据
- Excel在统计分析中的应用—第一章—统计基础与数据描述
- 统计分析基础 (一) 数据统计与图表
- 统计分析基础 (一) 数据统计与图表
- 关于描述性统计分析
- 描述性统计分析
- R描述性统计分析
- 社会统计分析—描述统计
- R语言描述性统计分析
- r语言描述性统计分析
- 数据挖掘基础:描述性数据汇总
- 流量统计分析基础
- 多元统计分析基础
- Machine Learning基础(统计分析)
- Pandas统计分析基础
- 企业数据统计分析工作
- 企业数据统计分析工作
- 数据统计分析调研结果
- Windows 窗口与消息
- Git push提交到远程仓库卡住的问题解决
- C++多态深度剖析
- Leetcode 238. Product of Array Except Self
- [19]Window管理框架WMF(Window Management Framework) 5.0 VS Window管理框架WMF(Window Management Framework) 5.1
- 统计分析基础-描述数据
- 【李木华】队列
- csdn博客第一天 支持浏览器离线Markdown
- Git忽略文件.gitignore的使用
- Java之lambda表达式
- 51nod-1277 字符串中的最大值(KMP)
- Leetcode 442. Find All Duplicates in an Array
- linux gcc编译常用命令之gun工具链的使用
- Leetcode 347. Top K Frequent Elements