DM 第一课 数据挖掘概括

来源:互联网 发布:pose studio mac 编辑:程序博客网 时间:2024/06/08 09:03

DM 第一课 数据挖掘概括

1.数据挖掘概述


数据挖掘(Data Mining)是通过系统分析从大量数据中提取隐藏于其中的规律,并用这些规律来预测未来或指导未来工作的科学。

数据挖掘技术示意图

图1 数据挖掘技术示意图

数据挖掘就是寻找隐藏在数据中的信息的过程,如趋势、特征及相关性,也就是从数据中发掘信息或知识。

2.数据挖掘的过程


一般,分为3个主要阶段:数据准备、数据挖掘以及结果表达与解释;

数据挖掘过程示意图

图2 数据挖掘过程示意图

(1) 数据准备

① 数据集成
了解领域特点,确定用户需求。将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。
② 数据选择
从原始数据库中选取相关数据或样本。为知识发现的目标搜索选择有关的数据,这包括不同模式数据的转换和数据的统一和汇总。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。
③ 数据预处理
检查数据的完整性及一致性,清除噪声等。对数据进行清理和充实等预处理工作,也包括对数据编码,数据库中字段的不同取值转换成数码形式有利于搜索。

(2) 数据挖掘

此阶段进行实际的挖掘操作,利用机器学习、统计分析等方法,从数据库中发现有用的模式或知识。
数据挖掘阶段的主要步骤如下。
① 确定挖掘目标:确定要发现的只是类型。
② 选择算法:根据确定的目标选择合适的数据挖掘算法。
③ 数据挖掘:运用所选算法,提取相关知识并以一定的方式表示。

(3) 结果表达与解释

根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。
这一步骤的主要任务包括如下两项。
① 模式评估:对在数据挖掘步骤中发现的模式(知识)进行评估。
② 知识表示:使用可视化和知识表示相关技术,呈现所挖掘的知识。

3.数据挖掘的对象


常见的数据挖掘对象有以下7大类:

  • 关系型数据库、事务型数据库、面向对象的数据库
  • 数据仓库/多维数据库
  • 空间数据(如地图信息)
  • 工程数据(如建筑、集成电路的信息)
  • 文本和多媒体数据(如文本、图像、音频、视频数据)
  • 时间相关的数据(如历史数据或股票交换数据)
  • 万维网(如半结构化的HTML、结构化的XML以及其他网络信息)

4.数据挖掘的方法


根据挖掘任务:分类、预测、聚类、关联规则、异常和趋势发现等。

根据挖掘方法:统计方法和机器学习方法。统计方法包含回归分析、判别分析、聚类分析、探索性分析等。

机器学习包含神经网络、集成学习、基于案例学习、遗传算法等。

数据挖掘的工具和方法,常用的有分类、聚类、关联、预测等。

(1) 分类

预测模型以通过某些数据得到另外的数据为目标。若预测的变量是离散的(如批准或者否决一项贷款),这类问题就称为分类;如果预测的变量是连续的(如预测盈亏情况),这种问题称之为回归。
数据挖掘广泛使用的方法有决策树、朴素贝叶斯、逻辑回归、神经网络等。

(2) 聚类

聚类用于从数据集中找出相似的数据并组成不同的组。与预测模型不同,聚类中没有明显的目标变量作为数据的属性存在。
聚类方法包括统计分析方法、机器学习方法、神经网络方法等。

(3) 关联

关联分析是从数据中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。关联分析的目的在于生成部分数据的概要,例如寻找数据子集间的关联关系或者一些数据与数据之间的派生关系。

(4) 预测

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可以求出该时间的状态。

5.数据挖掘十大算法


(1) C4.5

C4.5是机器学习中的一个分类决策算法,它是决策树核心算法ID3的改进算法。
数据挖掘技术中的决策树算法建立在信息论的基础上,是一种常用于预测模型的算法,它通过将大量数据有目的的分类,从中找到一些具有价值的、潜在的信息。该算法的理论依据充分,具有较高的精读和效率。
决策树算法是利用信息论原理对大量样本的属性进行分析和归纳而产生的。在树的每个节点上使用信息增益来度量选择测试属性,决策树的根节点是所有样本中信息量最大的属性。树的中间节点是该节点为根的子树所包含的样本子集中信息量最大的属性。

(2) K-Means算法

K-Means算法是数据挖掘技术中基于分裂的一个经典的聚类算法,理论可靠、算法简单、收敛迅速。
K-Means算法是一种常用的基于划分的聚类算法。K-Means算法是以k(k

(3) SVM算法

SVM(Support Vector Machine,支持向量机),它是一种监督学习的方法,广泛应用于统计分类以及回归分析中。
支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

(4) Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于搜索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合基座L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后在所有的频繁项集中找出强规则,即产生用户感兴趣的关联规则。

(5) EM算法

在统计计算中,EM(Expectationi-Maximization,最大期望)算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。
EM算法是一种迭代算法,每一次迭代都能保证似然函数值增加,并且收敛到一个局部极大值(Maximization Step),称为M步。
EM算法主要用来计算基于不完全数据的极大似然估计。

(6) PageRank算法

PageRank算法是Google算法的重要内容。PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。

(7) AdaBoost算法

AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器)。然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。
将修改过权值的新数据送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。

(8) kNN算法

kNN(k-Nearest Neighbor,K最近邻)分类算法,是著名的模式识别统计学方法,已经有四十年的历史,理论上比较成熟,它是最好的文本分类算法之一。
kNN也是最简单的机器学习算法之一,其整体思想比较简单:如果一个样本与特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

(9) 朴素贝叶斯算法

在众多的分类模型中,应用最广泛的两种分类模型是决策树和朴素贝叶斯模型(Naïve Bayesian Model,NBC)。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础以及稳定的分类效率。朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。它的特点是以概率形式表达所有形式的不确定,学习和推理都由概率规则实现,学习的结果可以解释为对不同可能的信任程度。
朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

(10) CART算法

CART(Classification and Regression Trees,分类与回归树)算法是一种非常有趣并且十分有效的非参数分类和回归方法,它通过构建二叉树达到预测目的。该方法是四位美国统计学家耗时十多年辛勤劳动的成果。
CART模型已经在统计领域和数据挖掘技术中普遍使用。它采用与传统统计学完全不同的方式构建预测准则,它以二叉树的形式给出,易于理解、使用和解释。由CART模型构建的预测树,在很多情况下比常用的统计方法构建的代数学预测准侧更加准确,且数据越复杂、变量越多,算法的优越性就越显著。模型的关键是预测准则的构件。

1 0