Data Mining运用的理论与实际应用功能

来源：互联网发布：mysql 连接时间编辑：程序博客网时间：2024/04/29 00:47

类别

项目

摘要

分

类

区

隔

类

Classification

 根据一些变量的数值做计算，再依照结果作分类。

 用一些根据历史经验已经分类好的数据来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。

Clustering

 将数据分群，其目的在于将群间的差异找出来，同时也将群内成员的相似性找出来。

 与Classification不同的是，分析前并不知道会以何种方式或根据来分类，所以必须要配合专业领域知识来解读这些分群的意义。

理论技术

传统技术

（统计分析）

1. 因素分析（Factor Analysis）─精简变量

2. 判别分析（Discriminant Analysis）─分类

3. 分群分析（Cluster Analysis）─区隔群体

改良技术

决策树（Decision Tree）─用树枝状展现数据受各变量的影响情形之预测模型，根据对目标变量产生之效应的不同而建构分类的规则。

 一般多运用在对顾客数据的区隔分析上。

 常用分类方法为CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）两种。

推

算

预

测

类

Regression

 使用一系列的现有数值来预测一个连续数值的可能值。

 可利用Logistic Regression来预测类别变量。

Time-series

 用现有的数值来预测未来的数值。

 与Regression 不同的是，Time-Series所分析的数值都与时间有关。

理论技术

传统技术

（统计分析）

1. Regression─连续变量

2. Logistic Regression─类别变量

3. Time-Series

改良技术

类神经网络（Neural Network）─仿真人脑思考结构的数据分析模式，由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。

 与传统回归分析相比：

 好处：在进行分析时无须限定模式，特别当数据变量间存有交互效应时可自动侦测出；

 缺点：分析过程为一黑盒子，故常无法以可读之模型格式展现，每阶段的加权与转换亦不明确。

 类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。

序

列

规

则

类

Association

 找出在某一事件或是数据中会同时出现的东西─如果A是某一事件的一种选择，则B也出现在该事件中的机率有多少。

 例如：如果顾客买了火腿和柳橙汁，那么这个顾客同时也会买牛奶的机率是85%。

Sequence Discovery

 Sequence Discovery与Association不同的是，Sequence Discovery事件的相关是以时间因素来作区隔。

 例如：如果A股票在某一天上涨12%，而且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%。

理论技术

传统技术

（统计分析）

缺乏

改良技术

规则归纳法─这是一种由一连串的「如果…/则…（If / Then）」之逻辑规则对数据进行细分的技术，在实际运用时如何界定规则为有效是最大的问题，通常需先将数据中发生数太少的项目先剔除，以避免产生无意义的逻辑规则。