数据挖掘笔记（1）——概论、类型

来源：互联网发布：定时开关机软件编辑：程序博客网时间：2024/05/21 02:19

概论

定义

海量数据自动或半自动有用规律

应用场景

不能清晰地定义问题

数据是否有价值

性价比是否合适

学习方式

监督学习：有分类和评价机制，如 Classification 、Numeric Prediction；

无监督误差：没有明确的分类和评价，如Cluster Analysis；

半监督学习：通过对已有数据学习得出模型，再使用未知数据对该模型进行泛化，提高其覆盖范围。

数据挖掘与以下关系

知识发现：

是知识发现的一部分

机器学习:

属于人工智能，借助人的经验提高机器的智能

OLAP：

和数据库结合紧密，偏统计分析；而数据挖掘发现数据内部之间的关系，可以作为数据挖掘的验证手段；统计是基于假设对数据进行验证，挖掘不知道自己发现什么。

CRM:

是数据挖掘的应用

数据仓库

可实现数据的预处理，和数据挖掘无必然联系

功能

预测

有明确的类定义

Classification

根据类定义判断未知数据属于那个类。类似于方程给出x求y值。

类是有清晰定义，而且是离散的

评价：准确度

Numeric Prediction

预测数值而不是类，数据是连续的

常用方法：回归分析

某些分类技术也可用于数值预测，如决策树、神经元网络方法等。

评价：均方根误差

数据集使用方式：

分成三块，一个是训练集（从该数据得出模型）；一个是调整集（对模型进行调整）；一个是测试集（判断模型是否准确）。其中训练集和调整集来自同一数据集，使用交叉验证、随机取样的方法进行划分，测试集是新数据

关联

Frequent Pattern

目标数据中反复出现的联系，如频繁结构模式、频繁序列模式、频繁项集(销售)

评价：支持度：联系在所有样本出现的比例， P(x Uy)；置信度：联系在有一方出现时的条件概率 P(x | y)

分析

没有明确的类定义

Concept Description

从数据中发现一般特征，并根据这些特征定义概念

数据特征化：对某一类数据特性的汇总，如什么是优质客户

数据区分：目标数据的一般特性和非此类数据进行对比

Cluster Analysis

将目标数据分成相似对象，没有类的定义，需要根据数据建立类

相似性：内部相似最大化；类之间相似最小化

评价：很难

方法： k-mean；基于密度估计

Outlier（离群点） Analysis

与一般模型不一致的点，有可能是噪声和意外

方法：统计、距离、密度、偏差

如果在NumericPrediction中多半认为是噪声，而如果该点比较重要，认为是意外

评价：代价

数据集：直接在数据集上构造模型

Trend Evolution Analysis

发现规律或趋势，包括数据流挖掘、时间序列挖掘、序列模式挖掘

数据流：对实时的数据流发掘，如摄像头

时间序列：有时间特征，如股票趋势

序列模式：如dna序列