数据分析与挖掘学习(一)

来源:互联网 发布:竹笛模拟软件 编辑:程序博客网 时间:2024/05/19 14:52

数据分析与挖掘过程

一. 定义挖掘目标

一般的数据挖掘任务包括:

  1. 分类与预测
  2. 聚类分析
  3. 关联规则
  4. 时序模式
  5. 偏差检验
  6. 智能推荐

二. 数据取样

抽取一个与挖掘目标相关的样本子集,标准是

  1. 相关性
  2. 可靠性
  3. 有效性

而不是选用全部数据做样本,数据样本选取得好,还可以使我们要寻找的规律更加凸显出来

衡量取样数据的质量标准如下:

  1. 资料完整无缺,各类指标项齐全
  2. 数据准确无误,反映的都是正常(非异常)状态下的水平

对获取的数据,可再从中进行抽样,方式可如下:

  1. 随机抽样
  2. 等距抽样
  3. 分层抽样
  4. 顺序抽样
  5. 分类抽样

三. 数据探索

拿到样本数据集之后,开始进行数据探索,下面是一些探索的内容:

  1. 项目中有没有什么明显的规律和趋势
  2. 属性之间有什么相关性
  3. 它们可以分成怎样一些类别

具体可能还包括下面的内容:

  1. 数据质量分析
    • 缺失值分析
    • 异常值分析
    • 一致性分析
  2. 数据特征分析
    • 分布分析
    • 对比分析
    • 统计量分析
    • 周期性分析
    • 贡献度分析
    • 相关性分析

四. 数据预处理

五. 挖掘建模

六. 模型评价

0 0
原创粉丝点击