第2章-数据质量
来源:互联网 发布:php 手机号地区 编辑:程序博客网 时间:2024/06/02 05:19
1.精度、偏倚和准确率 p24
精度(precision)(同一个量的)重复测量值之间的接近程度
偏倚(bias) 测量值与被测量值之间系统的误差
精度通常用值集合的标准差度量,而偏倚用值集合的均值与测出的已知值之间的差度量。
如:假定我们有1g质量的标准实验室重量,并且想评估实验室的新天平的精度和偏倚。我们称重5次,得到下列值: {1.015,0.990,1.031,1.001,0.986}。这些值的均值是1.001,因此偏倚是0.001.用标准差度量,精度是0.0013。
通常用更一般的属于准确率表示数据测量误差的程度。
准确率(accuracy)被测量的测量值与实际值之间的接近度
准确率的一个重要方面是有效数字(significant digit)
2.离群点
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或是对于该属性的典型值来说不寻常的属性值。我们也称其为异常(anomalous)或异常值。
注:区分噪声和离群点这两个概念是非常重要的。离群点可以是合法的数据对象或值。因此,不像噪声,离群点本身有时是人们感兴趣的对象。
如:欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件。
3.遗漏值
无论何种情况,在数据分析时都应当考虑遗漏值
处理遗漏值的策略如下:
(1) 删除数据对象和属性 如果某个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的。但做这件事时要小心,因为被删除的属性可能对分析时至关重要的。
(2) 估计遗漏值
(3) 在分析时忽略遗漏值
阅读全文
0 0
- 第2章-数据质量
- 软件的质量特性---《代码大全2》第20章
- 数据质量
- 数据质量
- 读《代码大全》第2版,第 7 章高质量的子程序
- 数据质量与信息质量
- 理论篇~第七章 数据质量
- 数据挖掘学习------------------1-数据准备-2-数据质量分析
- 高质量C++/C编程指南(第2章 程序的版式)
- 高质量C++/C编程指南 -- 第2章 程序的版式
- 高质量C++/C编程指南 -- 第7章 内存管理 (2)
- 高质量C++/C编程指南 -- 第7章 内存管理 (2)
- 高质量C++/C编程指南 -- 第2章 程序的版式
- 高质量C++/C编程指南 -- 第2章 程序的版式
- 读书笔记-高质量C++/C编程指南-第2章 程序的版式
- 高质量C++/C编程指南 -- 第2章 程序的版式
- 高质量C++/C编程指南 -- 第2章 程序的版式
- 编写高质量代码:改善Java程序的151个建议 (第2章 基本类型)
- Redis 安装
- 信息熵(上)
- mysql 取整数或小数或精确位数
- Vue购物车和地址选配
- python基础知识-笔记
- 第2章-数据质量
- 孤儿进程和僵尸进程
- WebView 简单使用
- 20170824WindowsPrj02_01_GDI
- Java基础
- 数据库事务,隔离级别
- 字符函数
- 二维数组中的查找java实现
- python解决最长回文子串问题