离群点

来源:互联网 发布:高级音频算法工程师 编辑:程序博客网 时间:2024/04/29 15:56

 

黄叶权  整理于 2007623

 

在统计学中,通俗的说法就是远离数据集中其他点的观测值,An outlier is an observation that lies outside the overall pattern of a distribution (Moore and McCabe 1999)。包含有离群点的数据集往往是不可靠的。例如,测量房间内的十个物体的温度,绝大多数都介于20-25℃之间,但烤炉的温度是350℃,这样的数据集的中位数可能是23℃,但均值可以达到55℃,在这种情况下,中位数相比于均值更能反映房间内的随机采样的温度[2]

   

   

通常来说,离群点的发生总能说明一定的问题,或者是所假设的分布不适合所研究的对象,或者是所测的数据是完全错误的。

  

如果数据点的值高于第3个四分之一点或低于第1个四分之一点1.5IQR,则就可以判断其为Mild outliers [3]。若远离3IQR则就称作Extreme outliers

 

   

离群点(outlier)定义为与相应的随机变量的平均值距离很远的点,这个距离由给定的阈值来测量,通常是标准差的整数倍[1]

   

    

  

一个对离群点不敏感的估计器,我们称其具有很好的鲁棒性。

去除离群点是一个颇具争议的做法,尤其是在样本数目较少而样本的分布又未知的情况下。

 

 

用箱形图可以很好地描述离群点的分布情况:

 

离群点可以很好地刻画五个重要的点,如图1任意一个箱形图从上到下依次代表:第3个四分之一点以上1.5IQR点、第3个四分之一点、中位数、第1个四分之一点、第1个四分之一点以下1.5IQR点。

 

 

 

1 Michelson-Morley实验数据箱形图

 

2 给出了对于高斯分布的各个点的具体数值

 

2正态分布及其箱形图

 

在文献[5]中给出了在Exel中创建箱形图的方法。

 

参考文献

[1] Sergios Theodoridis, Konstantinos Koutroumbas等著,李晶皎等译. 模式识别(第三版). 电子工业出版社,2006: 138-258

[2] http://en.wikipedia.org/wiki/Outlier

[3] http://mathworld.wolfram.com/Outlier.html

[4] http://en.wikipedia.org/wiki/Box_plot

[5] http://peltiertech.com/Excel/Charts/BoxWhisker.html

 
原创粉丝点击