数据挖掘导论

来源：互联网发布：视频转换器 for mac 编辑：程序博客网时间：2024/05/19 06:46

数据挖掘作为一个新兴的多学科交叉应用领域，正在各行各业的决策支持活动扮演着越来越重要的角色。数据挖掘(Data Mining)与数据库知识发现(Knowledge Discovery from DataBase)的基本知识，以及从大量有噪声、不完整、甚至是不一致数据集合中，挖掘出有意义的模式知识所涉及的概念与技术方法。

人类的各项活动都是基于人类的智慧和知识，即对外部世界的观察和了解，做出正确的判断和决策以及采取正确的行动，而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料，它本身没有任何意义。从数据到知识到智慧，需要经过分析加工处理精炼的过程。

据估计，目前一个大型企业数据库中数据，约只有百分之七得到很好应用。因此目前人类陷入了一个尴尬的境地，即“丰富的数据“(data rich)而”贫乏的知识“(knowledge poor)。

早在八十年代，人们在“物竞天择，适者生存”的大原则下，就认识到“谁最
先从外部世界获得有用信息并加以利用，谁就可能成为赢家”。而今置身市场经济且
面向全球性剧烈竞争的环境下，任何商家的优势不单纯地取决于如产品、服务、地
区等方面因素，而在于创新。

随着数据量的增长，多数据源所带来的各种数据的格式不相容性，为了便于获得决策的所需要的信息，就有必要将整个机构内的数据以各种数据以统一形式集成存储在一起，这就是形成了数据库(Data Warehousing) 。数据仓库不同于管理日常工作的数据库，他为了便于分析针对于特定的主,(subject-oriented)的集成化，时变的(time-variant)即提供贮存5~10年或者更长时间的数据，这些数据一旦存入就i不会在发生变化。

多年来随着数理统计方法和人工智能和认知领域的研究成果，诸如推理，机器学习。知识获取，模糊理论，神经网络，进化论，模式识别，粗糙集理论等等诸多的研究分支，给开发满足这些要求的数据深度分析工具提供了坚实基础。

数据挖掘的产生：

与日趋成熟的数据管理技术与软件相比，人们所依赖的数据分析工具的功能，却无法有效的为决策者提供其决策支持所需要的相关知识，自二十世纪以来，数据挖掘技术的逐步发展起来，数据挖掘技术的迅速发展，得益于目前全球的所拥有的巨大的数据资源以及对将这些数据资源转换成信息和知识资源的巨大需求，对信息和知识的需求来自各行各业，从商业管理，生产控制，市场分析到工程设计，科学探索等。数据挖掘可以视为数据管理于分析技术的自然产物。数据于信息之间的巨大差距需要系统地开发数据挖掘工具，来帮助实现将“数据坟墓”中的数据转化成为知识财富。

数据挖掘的定义：

数据挖掘(Data Mining,简称DM) 简单的讲就是从大量数据中挖掘或者抽取出知识，数据挖掘概念的定义描述有若干版本：

数据挖掘：又称为数据库中知识的发现(Knowledge Discovery form Database，简称KDD)，它是一个从大量数据中抽取挖掘出未知的有价值的模式或者规律等知识的复杂过程。

数据清洗：其作用就是清除数据噪声和与挖掘主题明显无关的数据

数据集成：其作用就是将来自多数据源中的相关数据组合到一起

数据转换：其作用就是将数据转换为易于进行数据挖掘的数据存储形式

数据挖掘：它是知识挖掘的一个基本步骤，其作用就是利用智能方法挖掘数据模式或者是规律知识

数据评估：其作用就是根据一定的评估标准从挖掘结果筛选出有意义的模式知识

知识表示：其作用就是利用可视化和知识表达技术，向用户展示所挖掘出的相关知识

KDD就是利用机器学习的方法从数据库中提取有价值的知识的过程，它是数据库技术和机器学习两个学科的交叉领域。数据库技术侧重于对数据存储处理的高效率方法的研究，而机器学习则侧重于设计新的方法从数据中提取知识。KDD利用数据库技术对数据进行前端处理，而利用机器学习方法则从处理后的数据中提取有用的知识。

数据挖掘功能：

利用数据挖掘技术可以帮助获得决策所需要的多种知识，在许多情况下，用户并不知道数据存在那些有用的价值的信息知识，因此对于一个数据挖掘系统而言，他应该能够同时搜索发现多种模式的知识，以满足用户的期望和实际需求。此外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还应该容许用户指导挖掘搜索有价值的模式。

概念描述：定性与对比

一个概念常常是对一个包含大量数据的数据集合总体情况的概述。

获得概念描述的方法主要有以下两种：

1.利用更为广义的属性，对所分析的数据进行概括(data charaterization)其中被分析的数据就称为目标数据集

2.对两类所分析的数据特点进行对比并分析出对比结果给出概要性总结；而其中两类被成为目标数据集和对比数据集

关联分析：

关联分析(association analysis) 就是从给定的数据集发现频繁出现的项集模式知识(又称为关联规则)。关联分析广泛用于市场营销，事务分析等应用领域。

分类与预测：

分类(classification)就是找出一组能够描述数据集合典型特征的模型或者函数，以便能够分类识别未知数据的归属或者类别，即将未知事物映射到某种离散类别之一。分类模型或者函数可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。

分类通常用于预测未知数据实例的归属类别(有限离散值)，如一个银行客户的信用等级是属于A级，B级还是C级，但在一些情况下需要预测某些数值属性的值(连续数值)，这样的分类就被称为预测，尽管预测包含连续数值的预测，也包括有限离散值的分类；但是一般还是使用预测来表示对连续数值的预测，而使用分类来表示对有限离散值的预测。

聚类分析：

聚类分析与分类预测方法明显不同之处是，后者所学习获取分类预测模型所使用的数据是已知类别归属，属于有教师监督学习方法；而聚类分析(无论是在学习还是预测时)所分析处理均是无(事先确定)类别归属，类别归属标志在聚类分析处理的数据集中是不存在的，究其原因很简单，他们原来就是不存在，因此类聚分析属于无教师监督学习方法。

在聚类分析中首先要根据各聚类内部对数据对象间的相似度最大化；而各聚类对象间相似度最小化的基本聚类分析原则，以及度量数据对象之间的相似度的计算公式，将聚类分析的数据对象划分为若干个组。因此一个组中的数据对象间的相似度要比不同组数据对象间的相似度要大。每个聚类分析所获得的组就可以视为相似度要比不同组之间的数据的相似度要大。每一个聚类分析所获得的组就可以视为一个同类别归属的数据对象集合。更进一步从这些同类别数据集，又可以继续分类进行学习获得相应的分类预测模型或者规则。此外通过反复不断的对所获得聚类组进行聚类分析，还可以获得初始数据集合的一个层次结构模型。

异类分析：

一个数据库中的数据一般不能符合分类预测或者聚类分析所获得的模型。那些不太符合大多数据对象构成的规律的数据对象就被成为异类。

数据中的异类可以利用数理统计的方法分析获得，即利用已知的数据获得的概率统计分布分布模型，或者利用相似度计算所获得的相似数据对象分布，分析确认异类数据。而偏离检测就是从数据已有的期望值中找出某些关键测度显著的变化。

演化分析：

数据演化分析(evolution analysis)就是对随时间变化的数据对象的变化规律和走势进行分析建模描述。这一建模手段包括：概念模型描述，对比概念描述，关联分析，分类分析，时间相关分析(时序数据分析，序列或者周期数据分析，以及基于相似性的数据分析)。

数据挖掘系统应用：

实际上数据挖掘技术一开始就是面向应用的。目前，在很多重要的领域，数据挖掘都可以发挥积极促进的作用。尤其是在银行，电信，保险，交通，零售等商业领域。数据挖掘能够包括解决许多典型的商业问题：数据库营销，客户群体划分，背景分析，交叉销售等市场分析行为，以及客户流失性分析，客户信用评分，欺诈发现......

数据挖掘研究的重点：

1.挖掘方法与用户交互的问题

1.1从数据库挖掘不同类型的知识

1.2 基于多抽象水平的交互挖掘

1.3 数据挖掘查询语言与定制数据挖掘

1.4 数据挖掘结果表达与可视化

1.5 处理有噪声或者不完整的数据

1.6 模式评估

2.性能问题

2.1 数据挖掘算法效率与可扩展性

2.2 并行、分布和增量更新算法

3.数据库类型多样化所涉及的问题

3.1 关系和复杂类型数据的处理

3.2 异构数据库和全球信息系统的信息挖掘