初识数据挖掘

来源：互联网发布：网络优化塔工2017招聘编辑：程序博客网时间：2024/06/05 00:18

政府机构、科研机构和企业都投入大量的资源去收集和存储数据，然而这些数据中只有一小部分是真正被利用到的。因为在很多情况下，要么数据量太大了，难于管理，要么就是数据结构太复杂，不能进行有效的分析。导致这个问题的根本原因是人们创建一个数据集时，往往把精力集中在如数据的存储效率问题上，而没有考虑数据最终是怎样使用和分析的。

1. 数据挖掘的两个基本目标：预测和描述

预测：使用数据集中的一些变量或域来预测其他我们所关心变量的未知或未来的值。

描述：找出描述可由人类解释的数据模式。

预测性数据挖掘：生成已知数据集所描述的系统模型。

描述性数据挖掘：在可用数据集的基础上生成新的、非同寻常的信息。利用大型数据集中的未知模式和关系获得对所分析系统的理解。

2. 数据挖掘过程的迭代特点

数据挖掘是一个反复迭代的过程，在这过程中所取得的进步用“发现”来定义。

3. 数据挖掘的基本任务

（1）分类：（预测）将一个数据项分到几个预定义类中的一个。

（2）回归：（预测）将一个数据项映射到一个真实值预测变量。

//回归，指研究一组随机变量(Y1，Y2 ，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常Y1，Y2，…，Yi是因变量，X1、X2，…，Xk是自变量。

（3）聚类：（描述）寻求以确定有限的一组类别或类来描述数据。

（4）总结概括：（描述）寻找对数据集或子集的描述方法。

（5）关联建模：发现描述变量之间、数据集或其一部分的特征值之间的重要的相关性的模型。

（6）变化和偏差检查：发现数据集中最重要的变化。

4. 数据挖掘的基本步骤

（1）陈述问题和阐明假设

（2）数据收集

要理解数据收集是怎样影响数据理论分布的。

（3）数据预处理（可划分为数据准备和数据维度归约两个子阶段）

通常包括至少两个常见任务。

（a）异常点的检测（和去除）----一般来讲，异常点是由测量误差、编码和记录误差产生的，有时也来自于自然的异常值。这种不具代表性的样本以后会严重影响模型的产生。对异常点有两种处理方法：把检测并去除异常点作为数据预处理的一部分，寻找不受异常点影响的健壮性建模方法。

（b）比例缩放、编码和选择特征

（4）模型评估

（5）解释模型和得出结论

5. 数据的质量对数据挖掘过程的影响。

这里指列举一个有研究价值的 ---- 数据集应当是完整的。现实中会发生数据丢失，要把数据丢失降到最小。丢失数据会降低全局模型的质量。当然，一些数据挖掘技术很健壮，它们支持对丢失数据的数据集进行分析。

6. 数据仓库与数据挖掘之间的联系

数据仓库的两个重要方面：第一是数据仓库中存储的特殊数据的类型（分类），第二是为了使数据有利于决策而把它准备成最终形式所要进行的转换。

数据仓库包含以下的数据类别，这个分类使其适应于时间依赖的数据源：（1）过去细节数据。（2）当前细节数据。（3）轻度综合数据。（4）高度综合数据。（5）元数据（数据目录或向导）

阅读全文

0 0