笔记-Tukey Method发现outliers(离群点)

来源:互联网 发布:基础法语入门软件 编辑:程序博客网 时间:2024/05/21 17:17

在大规模数据集中,由于噪声、扰动、采样过程误差等等原因,会出现一些数据点偏移整个数据集。假想整个数据集由某未知分布生成,则这些点可以看做该未知分布下的噪声采样。在可视化情况下,这些点显著偏移了数据集的点群,故称为离群点。而众多机器学习算法对数据分布都存在着一定的假设或期待数据集较为“规整”。因此在数据挖掘中,常需要在预处理中去除该类点,让算法能更好地发现“正常”数据间存在的关系。Tukey Method是一类常用方法。参考链接如下:

Highlighting Outliers in your Data with the Tukey Method – Bacon Bits

阅读全文
0 0