第2章-数据质量

来源:互联网 发布:php 手机号地区 编辑:程序博客网 时间:2024/06/02 05:19

1.精度、偏倚和准确率 p24

精度(precision(同一个量的)重复测量值之间的接近程度 

偏倚(bias 测量值与被测量值之间系统的误差 

精度通常用值集合的标准差度量,而偏倚用值集合的均值与测出的已知值之间的差度量。

如:假定我们有1g质量的标准实验室重量,并且想评估实验室的新天平的精度和偏倚。我们称重5次,得到下列值: {1.015,0.990,1.031,1.001,0.986}。这些值的均值是1.001,因此偏倚是0.001.用标准差度量,精度是0.0013。

通常用更一般的属于准确率表示数据测量误差的程度。

准确率(accuracy被测量的测量值与实际值之间的接近度

准确率的一个重要方面是有效数字(significant digit)

 

2.离群点

离群点(outlier是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)或异常值。

注:区分噪声和离群点这两个概念是非常重要的。离群点可以是合法的数据对象或值。因此,不像噪声,离群点本身有时是人们感兴趣的对象。

如:欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件。


3.遗漏值

无论何种情况,在数据分析时都应当考虑遗漏值

处理遗漏值的策略如下:

(1)    删除数据对象和属性   如果某个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的。但做这件事时要小心,因为被删除的属性可能对分析时至关重要的。

(2)    估计遗漏值

(3)    在分析时忽略遗漏值