离群点
来源:互联网 发布:高级音频算法工程师 编辑:程序博客网 时间:2024/04/29 15:56
黄叶权 整理于 2007年6月23日
在统计学中,通俗的说法就是远离数据集中其他点的观测值,An outlier is an observation that lies outside the overall pattern of a distribution (Moore and McCabe 1999)。包含有离群点的数据集往往是不可靠的。例如,测量房间内的十个物体的温度,绝大多数都介于20-25℃之间,但烤炉的温度是350℃,这样的数据集的中位数可能是23℃,但均值可以达到55℃,在这种情况下,中位数相比于均值更能反映房间内的随机采样的温度[2]。
通常来说,离群点的发生总能说明一定的问题,或者是所假设的分布不适合所研究的对象,或者是所测的数据是完全错误的。
如果数据点的值高于第3个四分之一点或低于第1个四分之一点1.5IQR,则就可以判断其为Mild outliers [3]。若远离3IQR则就称作Extreme outliers,
离群点(outlier)定义为与相应的随机变量的平均值距离很远的点,这个距离由给定的阈值来测量,通常是标准差的整数倍[1]。
一个对离群点不敏感的估计器,我们称其具有很好的鲁棒性。
去除离群点是一个颇具争议的做法,尤其是在样本数目较少而样本的分布又未知的情况下。
用箱形图可以很好地描述离群点的分布情况:
离群点可以很好地刻画五个重要的点,如图1任意一个箱形图从上到下依次代表:第3个四分之一点以上1.5IQR点、第3个四分之一点、中位数、第1个四分之一点、第1个四分之一点以下1.5IQR点。
图1 Michelson-Morley实验数据箱形图
图2 给出了对于高斯分布的各个点的具体数值
图2正态分布及其箱形图
在文献[5]中给出了在Exel中创建箱形图的方法。
参考文献
[1] Sergios Theodoridis, Konstantinos Koutroumbas等著,李晶皎等译. 模式识别(第三版). 电子工业出版社,2006: 138-258
[2] http://en.wikipedia.org/wiki/Outlier
[3] http://mathworld.wolfram.com/Outlier.html
[4] http://en.wikipedia.org/wiki/Box_plot
[5] http://peltiertech.com/Excel/Charts/BoxWhisker.html
- 离群点
- 离群点检测方法
- 离群点检测方法
- 离群点过滤
- 离群点检测方法综述
- 数据挖掘-离群点检测
- 数据挖掘--离群点检测
- 离群点检测方法综述
- ConditionalRemoval移除离群点
- 离群点检测Outlier Detection
- pcl 学习 离群点删除
- Python箱型图处理离群点
- pcl点云的离群点去除
- 离群点(孤立点)检测
- 数据挖掘(五)离群点检测
- 聚类分析(七)离群点分析
- 数据挖掘 第十二章离群点检测
- 数据挖掘技术-离群点检测
- 学习C++ 推荐一个好的网站
- 用Visual C#.NET编写服务器日期控件(转)稍做改动,运行时不会报CalendarEnum找不着错误
- 西湖东坡鱼的历史典故
- 编程实现在weblogic中添加用户
- Cognos Impromptu报表格式设置对性能的影响
- 离群点
- 人生的三重境界
- 布雷v圣巴特里克
- 使用windbg调试托管程序的一些零散经验
- 佛教箴言
- 一、Servlet和JSP概述
- 高程模型(.ded)文件结构
- 如何从股市赚点钱(1):认识金融市场
- Ubuntu基本配置心得