统计分析基础-描述数据

来源:互联网 发布:闪迪固态硬盘优化软件 编辑:程序博客网 时间:2024/05/01 03:19

衡量集中趋势

均值mean

可以迭代计算均值会受到异常值的影响,使得平均值难以具备中位数的代表性

众数mode

均匀分布不存在众数,多峰分布存在多个众数。数据集中的所有分值都会影响众数。直方图中的众数会随着组距而改变从同一总体中抽取出的样本,每一个样本的众数不一定相同。众数没有计算公式

中位数median

robust:处理高偏斜分布更能反应集中趋势

分布图片来自《数据挖掘:概念与技术》p.31

中心度量 有简单计算公式 对数据变化敏感 不受组距变化影响 不易受异常值影响 容易在直方图上找到 mean √ √ √ mode √ √ median √ √

度量数据散布

极差

截尾 cut tail

四分位数极差 interquartile range IQR

IQR = Q3 - Q150%的数据在IQR间IQR不会受到数据集中每个值的影响IQR不受异常值影响  

异常点 outlier

outlier < Q1 - 1.5IQR or outlier > Q3 + 1.5IQR

IQR
如图,mean不总在IQR之间,因为mean对异常值敏感。而median总在IQR之间

离均差 deviation from mean

平均偏差:正负项会相互抵消绝对偏差,平均绝对偏差平方偏差,平均平方偏差

方差 variance

标准差 standard deviation

标准差图片来自 Coursera Statistic with R

样本标准差与总体方差关系

关系图片来自 Udacity

0 0