数据挖掘——基础篇

来源：互联网发布：portraiture mac 编辑：程序博客网时间：2024/06/05 03:26

（写于December 4th, 2012）

初涉数据挖掘，算是对于数据数据挖掘的一些基础性理解。

什么是数据挖掘？

数据挖掘是数据库中知识发现（knowledgeDiscovery inDatabase,KDD）不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程。PS：我认为就是从海量的数据中分析处对我们有用的数据，然后这个分析的过程就是所谓的数据挖掘。

数据挖掘需要解决的问题：

在面临新数据集带来的问题时，传统的数据分心级数常常遇到实际困难，具体问题有：可伸缩，高纬性，异种数据和复杂数据，数据的有权与分布，传统的分析。（数据挖掘和传统数据分析方法的区别：1.数据挖掘所面对的数据和以前面对的数据有着显著的区别。首先，现在的数据源更加海量了，其次，现在的数据可能不是结构化数据，什么是结构化数据？即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据，而非结构化数据是指，数据库二维逻辑表来表现的数据即称为非结构化数据，比如xml，html，图像，视频，文本等。2.分析方法不同，传统的数据分析方法是先给定一个假设，然后我们通过分析数据去验证这个假设，而数据挖掘并没有假设，相反，它是发现假设的。）

数据挖掘任务：

两大类：

预测任务：根据其他属性的值，预测特定属性的值。被预测的属性一般称为目标变量或因变量，而用来作预测的属性称为说明变量或自变量。

描述任务：导出概括数据中潜在联系的模式。本质上，描述性数据挖掘任务通常是探查性的，并且常常需要后处理技术验证。
四种主要数据挖掘任务：

预测建模：以说吗变量函数的方式为目标变量建立模型。有两类预测建模任务：分类，用于预测离散的目标变量，分析一个已知的类别来建立一个模型，通过这个模型我们可以判断出类别未知的类的类别;回归，用于预测连续的目标变量。

关联分析：用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。

聚类分析：把一组数据分成不同的簇，每簇中数据相似而不同簇间的数据则距离较远。（与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。）

异常检测：识别其特征显著不同于其他数据的观测值（异常点或离群点）。