数据挖掘概述

来源:互联网 发布:淘宝先锋ss商家入口 编辑:程序博客网 时间:2024/05/29 19:30

数据挖掘


绪论

  1. 什么是数据挖掘
    是从大量数据中挖掘有趣模式和知识的过程。

  2. 可以挖掘的数据类型

    1. 数据库数据
    2. 数据仓库
    3. 事务数据
    4. 其他类型数据
      时间相关(股票)、空间(地图)、超文本和多媒体(视频和音频)等
  3. 可以挖掘的模式类型
    总体分类:

    1. 预测任务
    2. 描述任务
      细分:
    3. 类/概念描述:特征化和区分
    4. 挖掘频繁模式、关联和相关性
    5. 用于预测分析的分类和回归
    6. 聚类分析
    7. 离群点分析
  4. 使用技术

    1. 统计学
    2. 机器学习
    3. 数据库系统和数据仓库
    4. 信息检索
  5. 数据挖掘的主要问题

    1. 挖掘方法
      1. 挖掘各种新的知识类型
      2. 挖掘多维空间中的知识
      3. 跨学科
      4. 提升网络环境下的发现能力
      5. 处理不确定性、噪声或不完全数据
      6. 模式评估和约束指导的挖掘
    2. 用户界面
      1. 交互挖掘
      2. 结合背景知识
      3. 特定的数据挖掘和数据挖掘查询语言
      4. 数据挖掘结果的表示和可视化
    3. 有效性和伸缩性
      1. 算法的有效性和伸缩性
      2. 并行、分布式和增量挖掘算法
    4. 数据库类型的多样性。
      1. 处理复杂的数据类型
      2. 挖掘动态的、网络的、全球的数据库
    5. 数据挖掘与社会。
      1. 对社会的影响
      2. 保护隐私数据

认识数据

  1. 数据对象和属性类型
    数据集由数据对象组成。一个数据对象代表一个实体。
    1. 属性
      属性是一个数据字段,表示数据对象的一个特征。属性、维、特征和变量可以互换使用。
    2. 属性的类型
      1. 标称属性 值是一些符号或事务的名称,每个值代表某种类别、编码或者状态,因此又被看做是分类的。也可以被看做是枚举的。
      2. 二元属性 只有2个类别或状态。0,1。
      3. 序数属性 可能的值之间具有有意义额序,但相继值之间的差是未知的。
      4. 数值属性 是可度量的量,用整数或实数值标识。
        1. 区间标度 属性用相等的单位尺度度量
        2. 比率标度 属性是具有固定零点的数值属性
      5. 离散属性与连续属性 离散属性具有有限或者无限可数个值
  2. 数据的基本统计描述
    基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。

    1. 中心趋势度量:均值、中位数和众数
      均值是加权算术均值
      中位数是有序数据值的中间值
      众数是集合中出现最频繁的值

    2. 度量数据散步:极差、四分位数、方差、标准差和四分位数极差
      极差是最大值和最小值的差。
      把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一,这3个点称为四分位数。
      第一个和第三个四分位数之间的距离称为四分位数极差。
      方差是各个数据分别与其平均数之差的平方的和的平均数
      标准差是方差的算术平方根。
      标准差的单位和测量值的单位是一样的,而方差的单位是其平方,所以一般使用标准差.

    3. 数据的基本统计描述的图形显示

    4. 度量数据的相似性和相异性

数据预处理

  1. 数据质量3要素
    1. 准确性
    2. 完整性
    3. 一致性 格式、时间等不一致
    4. 时效性
    5. 可信性
    6. 可解释性 反映数据是否容易理解
  2. 主要任务
    1. 数据清理 保证数据的质量
    2. 数据集成 合并多个数据库、数据立方体或者文件
    3. 数据归约 得到数据集的简化表示
    4. 数据变换 规范化、数据离散化和概念分层
  3. 数据清理
    1. 缺失值
      1. 忽略元组 每个属性缺失值百分比很大时,性能差
      2. 人工填写 数据量大时不适用
      3. 使用一个全局常亮填充缺失值
      4. 使用属性的中心度量填充缺失值
      5. 使用与给定元组属同一类的所有样本的属性均值或中位数
      6. 使用最可能的值填充 贝叶斯形式化方法
        方法6是最流行的策略
    2. 噪声数据
      1. 分箱 用周围的值来光滑有序数据值
        1. 用箱均值光滑
        2. 用箱中位数光滑
        3. 用箱边界光滑
      2. 回归 用一个函数拟合数据来光滑数据
      3. 离群点分析 通过聚类来检测离群点
    3. 数据清理作为一个过程
      使用关于数据性质的元数据、ETL工具等进行数据清理
    4. 数据集成
      合并多个数据存储的数据
    5. 实体识别问题 使用元数据来避免模式集成错误
    6. 冗余和相关分析
      1. 一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。有些冗余可以被相关分析检测到。
      2. 标称数据的卡方检验
      3. 数值数据的相关系数、协方差
    7. 元组重复
    8. 数据值冲突的检测与处理
    9. 数据规约
    10. 维规约 减少所考虑的随机变量或属性个数
      1. 小波变换
      2. 主成分分析
      3. 属性子集选择
    11. 数量规约 用替代的、较小的数据标识替换原数据
    12. 数据压缩
      1. 有损的
      2. 无损的
    13. 小波变换 保留近似的压缩数据
    14. 主成分分析 搜索k个最能代表数据的n维正交向量
    15. 属性子集的选择
    16. 回归和对数线性模型
    17. 直方图
    18. 聚类
    19. 抽样
    20. 数据立方体聚集
    21. 数据变换与数据离散化
    22. 数据变换策略概述
      在数据变换中,数据被变换或统一成适合挖掘的形式,主要策略包含如下几种:
      1. 光滑 去除数据中的噪声
      2. 属性构造 由给定的属性构造新的属性并添加到属性集中。
      3. 聚集 对数据进行汇总或者聚集
      4. 规范化 将数据按比例缩放,使之落入一个特定的小区间。
      5. 离散化 属原始值用区间标签或概念标替换
      6. 由标称数据产生概念分层
        1. 聚集:将2个或者多个对象合并成单个对象。
    23. 抽样:选择数据对象子集进行分析。
    24. 维归约:通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。
    25. 特征子集选择:仅使用特征的一个子集来降低维度。
    26. 特征创建:由原来的属性创建新的属性。
    27. 离散化和二元化:某些分类算法,要求数据是分类属性形式。
    28. 变量变换:对变量的所有值进行转换。
  4. 相似性和相异性
    1. 相似性:两个对象相似程度的数值度量
    2. 相异性:两个对象差异程度的数值度量

探索数据

  1. 汇总统计
    1. 频数和众数:特定数据集中每个值出现的频率叫频数,众数是具有最高频率的值。
    2. 均值和中位数
    3. 极差和方差:极差表示最大散步(最大值-最小值),标准差是方差的平方根。

分类:基本概念、决策树与模型评估

  1. 定义
    分类任务就是通过学习得到一个目标函数f,把每个属性x映射到一个预先定义的类标号y。
    目标函数也称分类模型。
    分类模型可以用于以下目的。
    1. 描述性建模。可以作为解释性的工具,用于区分不同类中的对象。
    2. 预测性建模。用于预测未知记录的类标号。
  2. 解决分类问题的一般方法
    1. 首先,需要一个训练集。有类标号已知的记录组成
    2. 建立分类模型
    3. 将模型运用于检验集,应用模型。

关联分析:基本概念和算法

  1. 定义
    给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阀值。由关联规则作出的推论并不必然蕴含因果关系,只是表示规则前件和后件明显的同时出现。
  2. 术语
    1. 项集 包含0个或者多个项的集合。包含k个集合称为k-项集。空集不包含任何项。
    2. 支持度计数 σ(X)包含特定项集的事务个数。
    3. 支持度 s(X->Y)=σ(x∪y)/N N表示事务总数,支持度确定给定数据集的频繁程度。
    4. 置信度 c(X->Y)=σ(x∪y)/σ(X) 确定Y在 包含x的事务中出现的频繁程度。
  3. 关联规则挖掘任务一般方法
    1. 频繁项集产生。发现满足最小支持度阀值的所有项集。
    2. 规则的产生。从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称为强规则。
  4. 频繁项集的产生
    确定每个候选项集的支持度计数。计算所有候选项集需要进行o(事务数×候选项集数×事务最大宽度)次比较。
    降低产生频繁项集的计算复杂度方法。
    1. 减少候选项集的数目。先验原理
    2. 较少比较次数。
      先验原理
    3. 定义
      如果一个项是频繁的,则它的所有子集一定也是频繁的。相反,如果项集非频繁,则它的所有超集也一定是非频繁的。一个项集的支持度不会超过它的子集的支持度,称为支持度度量的反单调性。
  5. 规则的产生
    将项集Y划分成2个非空子集X和Y-X,使得X->Y-X满足置信度阀值。

聚类分析:基本概念和算法

  1. 定义
    根据在数据中发现的描述对象及其关系的信息,将数据对象分组。组内相似性越大,组间差别越大,聚类就越好。
    聚类分析属于非监督分类,不需要人工采集地物样本点数据。
  2. 不同的聚类类型
    1. 层次的与划分的
      划分聚类简单地将数据对象划分成不重叠的子集。
      层次聚类是嵌套簇的集族,组织成一棵树。
    2. 互斥的、重叠的与模糊的
    3. 完全的与部分的
      完全聚类将每个对象指派到一个簇。
      部分聚类数据集中某些对象可能不属于明确定义的组。(比如噪声,离群点)
  3. 聚类方法
    1. K均值 试图发现用户指定个数的簇。
    2. 凝聚的层次聚类
    3. DBSCAN 是一种基于密度的聚类算法。
0 0