数据挖掘--绪论

来源：互联网发布：美工欣赏温斯顿编辑：程序博客网时间：2024/05/17 20:55

数据挖掘是一个多学科交叉研究领域，它融合了数据库技术、人工智能、机器学习、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。它不仅能对过去数据进行查询，而且能够找出过去数据之间的潜在联系，进行更高层次的分析，以便更好地做出理想的决策、预测未来的发展趋势等。

从目前的现状看，大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段。一方面，数据挖掘的概念已经被广泛接受。理论上，一批具有挑战性和前瞻性的问题被提出，吸引越来越多的研究者。另一方面，数据挖掘的的大面积广泛应用还有待时日，需要深入的研究积累和丰富的工程实践。大多数人都赞成这样的观点：数据挖掘在商业上的成功不能期望通用的辅助开发工具，而应该是数据挖掘概念与特定领域商业逻辑相结合的纵向解决方案。

数据挖掘定义有广义和狭义之分。从广义的观点，数据挖掘是从大型数据集（可能是不完全的，有噪声的，不确定性的，各种存储形式的）中，挖掘隐含在其中的，人们事先不知道的，对决策有用的知识的过程。从这种狭义的观点上，我们可以定义数据挖掘是从特性形式的数据集中提炼只是的过程。

常用的知识表示模式和方法：

(1)广义知识挖掘：

l 概念描述：就是对某类对象的内涵特征进行概括。分为特征行描述和区别行描述。前者描述某类对象的共同特征，后者描述为不同类对象之间的区别。

l 多维数据分析：聚集，例如求和、计数、平均、最大值等

l 多层次概念描述：上钻和下钻

(2)关联知识挖掘：

(3)类知识挖掘：刻画了一类事物，这类事物具有某种意义上的共同特征，并明显和不同类事物相区别。主要是分类和聚类两种。

分类：成功应用到分类只是挖掘的技术主要有：决策树（ID3-> ID4->ID5-> C4.5-> C5.0-> SLIQ-> SPRINT等），贝叶斯分类（来源于概率统计学）、神经网络、遗传算法和进化理论、类比学习（k-最临近方法）等。

聚类：有人称回归分析、判别分析和聚类分析是三大多元数据分析方法。比较有代表性的聚类技术是几何距离度量的聚类方法，如欧式距离、曼哈坦距离等。主要的方法有：基于划分的聚类方法（k-平均算法）、基于层次的聚类方法（凝聚和分裂）、基于密度的聚类方法（通过度量区域所包含的对象数据来形成最终目标的。如果一个区域的密度超过指定的值，那么它就需要进一步分解更细的组，直到所有的分组满足用户的要求）、基于网格的聚类方法和基于模型的聚类方法。

(4)预测型知识挖掘：

主要分成如下模式：趋势预测模式（统计学方法经过改革可以用来预测，如n阶移动平均值，n阶加权移动平均值，最小二乘法，徒手法等），周期分析模式（快速傅里叶变换FFT，最大自模式匹配集方法），序列模式（FreeSpan）和神经网络。

(5)特异型知识挖掘：

源数据中所蕴含的极端特例或明显区别于其他数据的只是描述，他揭示了事物偏离常规的异常规律。例如，分类中的反常实例，不满足普通规则的特列，观测结果与模型预测值的偏差，数据聚类外的离群值等。

孤立点分析（Outlier,概率统计，基于距离和基于偏差等检测技术的三类方法），序列异常分析（在一系列行为或者事件对应的序列中发现明显不符合规则的特异型知识）和特异规则发现。