数据仓库数据挖掘——Data Preprocessing

来源：互联网发布：java导入的文件是乱码编辑：程序博客网时间：2024/04/30 18:03

为什么要进行数据预处理？

Data in the real world is dirty：incomplete、noisy、inconsistent（不一致的）

No quality data, no quality mining results!

一个广为接受的多维视角：
精度、完整性、一致性、及时性、可信性、增加值、解释性、可达性

Major Tasks in Data Preprocessing

数据清洗、数据集成与转换、数据约减、离散化和概念层次生成

  Data cleaning
      Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies
  Data integration
      Integration of multiple databases, data cubes, or files
  Data transformation
      Normalization and aggregation
  Data reduction
      Obtains reduced representation in volume but produces the same or similar analytical results
  Data discretization
      Part of data reduction but with particular importance, especially for numerical data

  数据清洗的任务：
      填补缺失值
      识别异常值，平滑噪声数据
    校正不一致的数据

How to Handle Missing Data?

忽略元组：通常在类标签丢失（假设在分类任务时没有有效的每个属性的缺失值百分比变化很大。
手动填写遗漏值：乏味+不可行？
使用一个全局变量填充缺失值：例如，“未知”，一个新的类？！
使用属性意味着填补缺失值
使用属性意味着所有样本属于同一类的填补缺失值：聪明
使用最可能的值填充空缺值：推理如贝叶斯公式或决策树

Noisy Data

How to Handle Noisy Data?

    分级方法：
      第一类数据和分区（等高）箱
           然后可以通过本装置平稳，由本中值平滑，通过箱的边界光滑，等。
       聚类
           检测和删除异常
       结合计算机和人工检查
          发现可疑值并通过人来检查
       回归
           通过拟合数据平滑到回归函数

简单的离散化方法：分级

   宽度相等的分区（距离）：

      它将范围为n个大小相等的间隔：均匀网格
      如果A和B是最低和最高值的属性，间隔的宽度为W =（B-A）/ N。
      最简单的
      但异常可能会占主导地位的表现
      倾斜的数据处理不好。

   等深（频率）的划分：
      它将范围为n个区间，每个包含大约相同数目的样本
      良好的数据换算
      管理类别属性会很棘手。

Data Integration

数据集成：
结合来自多个数据源的数据在一个商店
模式集成
整合不同来源的元数据
实体识别问题：识别真实世界实体的多个数据源，例如，a.cust-idb.cust - #
检测和解决冲突的数据值
对于相同的真实世界的实体，从不同的来源属性值是不同的
可能的原因：不同的表现，不同的尺度，例如，与英国度量单位

处理冗余数据（Redundant Data）：

冗余数据时经常集成多个数据库发生
该属性可以在不同的数据库有不同的名字
一个属性可能是一个“源”的另一个表中的属性，例如，年收入
冗余的数据可以被检测到的记录联动技术或相关分析
来自多个来源的数据集成，可以帮助减少/避免小心的冗余和不一致的提高挖掘的速度和质量

Data Transformation

平滑：从数据中去除噪声
聚集：总结，数据立方体结构
概括：概念层次攀登
标准化：规模的落在一个小的，指定的范围
最小最大化
z-score normalization
采用十进制尺度归一化
属性或是特征的构建
从给定的属性构造新的属性

数据立方体（Data Cube Aggregation）

属性子集的选择（Attribute Subset Selection）

特征选择（即，属性子集选择）：
选择一组最小的特点，不同类别的概率分布给出这些特征值尽可能接近给定的所有特征值的原始分布
减少在模式#模式，容易理解
启发式方法（由于选择指数#）：
逐步向前选择
逐步淘汰落后
结合正向选择和淘汰落后
决策树归纳

数据压缩（Data Compression）：

字符串的压缩
有广泛的理论和良好的调谐算法
通常无损
但是，只有有限的操作是不可能的扩展
音频/视频压缩
典型的有损压缩，渐进细化
有时小片段的信号可以重建，而不必重建全部

数据压缩：主成分分析——Data Compression: Principal Component Analysis (PCA)

数据压缩：数值规约——Data Compression: Numerosity Reduction

方法（1）：回归和对数线性模型
方法（2）：直方图
方法（3）：聚类
方法（4）：取样——有或没有替代、集群或分层取样

Discretization and Concept hierachy

离散化
减少对于一个给定的连续属性的属性范围划分为间隔的值的数目。区间标签就可以用来代替实际的数据值。

概念层次
通过收集和取代低层次的概念，减少数据（如属性年龄数值）的更高层次的概念（如青年，中年，或高级）。

Histograms

对数据离散化和概念层次生成

分级（见节之前）
直方图分析（见节之前）
聚类分析（见节之前）
基于熵的离散化
通过自然分割的分割

总结：

数据准备是为仓储和挖掘的一个大问题
数据准备包括
数据清理和数据集成
数据约简和特征选择
离散化
许多方法已被开发，但仍是一个活跃的研究领域

1 0