数据挖掘笔记1-简介

来源：互联网发布：psv如何重新构筑数据库编辑：程序博客网时间：2024/04/28 04:28

- 基本概念
- 技术概览
- 应用及前景
- 数据挖掘系列博客概要

基本概念

数据收集和数据库的建立，到数据管理（存储、提取、事务管理），再到数据的分析和理解（数据仓库和挖掘），是信息化时代人们对数据利用的进化。
这里写图片描述
数据挖掘的出现是因为信息时代产生的巨大数据已经不能靠人工来分析和理解，要使用机器按照一定的算法和规则提取大量数据中的一些规律，当然挖掘的目标是利用这些规律创造新的价值。通常一个数据挖掘工程是按照下面的流程来进行的：

Data Cleaning (noise / inconsistent data)

Data Integration (combine multiple data sources)

Data Selection (retrieve relevant data)

Data Transformation (summary / aggregation)

Data Mining (extract data patterns)

Pattern Evaluation (measure interestingness)

Knowledge Presentation (present to users)

技术概览

数据挖掘主要分为三大类技术：1、聚类分析。2、分类与回归。3、频繁模式、关联和相关性挖掘三大类。

聚类分析：

原始数据没有任何的类别，通过聚类模型把相似的对象放到一起，定义一个新的类别。无监督。
划分方法：
特点：发现球形互斥的簇、基于距离、可以用均值或者中心点代表簇中心、小规模数据有效
经典算法：k均值，k中心
层次方法：
特点：多层、不能纠正错误的划分、可以集成其它技术
经典算法：凝聚法AGNES和分裂法DIANA。BIRCH、Chameleon（变色龙）、概率层次聚类、
基于密度的方法：
特点：任意形状、以低密度分割、可能过滤离群点
经典算法：DBSCAN、OPTICS、DENCLUE
基于网格的方法：
特点：多分辨率网格数据结构、快速处理
经典算法：STING、CLIQUE

分类与回归：

原始数据给出了类别，但是每个对象的类别标签未知，通过将部分已知分类标签的数据用于分类模型学习，学习到模型参数再用于原始数据的分类。属于监督学习。另外如果将分类改成连续数值，就是估计（Estimation），而将分类或者估计的结果反过来去求某个属性的值，则成为预（Prediction）。
决策树：
贝叶斯：
基于规则分类：
反向传播：
支持向量机：
logistic回归和最大熵：
AdaBOOST：
感知机：

频繁模式、关联和相关性挖掘：

决定哪些事情将一起发生。
Apriori：
Write-based ：
Point-based：
FP-Tree、Enumeration Tree、Space Partition Tree：

模型的评估与选择：误差、拟合、选择（正则化与交叉验证）、泛化能力

统计学习监督模型一般分为生成模型和判别模型：

判别方法直接学习P(Y|X),生成方法学习P(X,Y)和P(X)，使用P(Y|X)=P(X,Y)/P(X)生成P(Y|X）。
生成：朴素贝叶斯和隐马尔可夫判别：K近邻、感知机、决策树、logistic回归、最大熵、支持向量机、提升方法和条件随机场等。

在数据挖掘中使用的技术：统计学、机器学习、模式识别、可视化、算法、高性能计算、应用、信息检索、数据仓库、数据库系统。

应用及前景

这里写图片描述

这些应用的数据类型可以归纳为以下几个方面：

序列数据：时间序列（股票）、符号序列（web点击流）、生物学序列（DAN)
图与网络：同质数据/异质数据（节点/链路具有相同/不同的类型）（如：图、社会和信息网络）
其它类型：空间数据、时空数据、物流网、多媒体、文本、web、数据流。

数据挖掘系列博客概要

数据挖掘笔记2-数据描述、可视化和预处理
数据挖掘笔记3-数据库、数据仓库、立方体
数据挖掘笔记4-频繁模式、关联和相关性
数据挖掘笔记5-聚类分析
数据挖掘笔记6-分类与回归
数据挖掘笔记7-数据类型与分析

0 0