什么是数据挖掘

来源：互联网发布：关于网络语言暴力作文编辑：程序博客网时间：2024/05/16 04:55

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更是至关重要。

分析方法：

数据挖掘

· 分类（Classification）

· 估计（Estimation）

· 预测（Prediction）

· 相关性分组或关联规则（Affinity grouping or association rules）

· 聚类（Clustering）

· 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)

方法简介：

·分类（Classification）

首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。

例子：

a. 信用卡申请者，分类为低、中、高风险

b. 故障诊断：中国宝钢集团与上海天律信息技术有限公司合作，采用数据挖掘技术对钢材生产的全流程进行质量监控和分析，构建故障地图，实时分析产品出现瑕疵的原因，有效提高了产品的优良率。

注意：类的个数是确定的，预先定义好的

· 估计（Estimation）

估计与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类

数据挖掘

的类别是确定数目的，估值的量是不确定的。

例子：

a. 根据购买模式，估计一个家庭的孩子个数

b. 根据购买模式，估计一个家庭的收入

c. 估计real estate的价值

一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运用估值，给各个客户记分（Score 0~1）。然后，根据阈值，将贷款级别分类。

· 预测（Prediction）

通常，预测是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。

· 相关性分组或关联规则（Affinity grouping or association rules）

决定哪些事情将一起发生。

例子：

a. 超市中客户在购买A的同时，经常会购买B，即A => B(关联规则)

b. 客户在购买A后，隔一段时间，会购买B （序列分析）

· 聚类（Clustering）

聚类是对记录分组，把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。

例子：

a. 一些特定症状的聚集可能预示了一个特定的疾病

b. 租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群

聚集通常作为数据挖掘的第一步。例如，"哪一种类的促销对客户响应最好？"，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。

· 描述和可视化（Description and Visualization）

是对数据挖掘结果的表示方式。一般只是指数据可视化工具，包含报表工具和商业智能分析产品（BI）的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现，分析，钻取，将数据挖掘的分析结果更形象，深刻的展现出来。

经典算法：

1. C4.5：是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。

2. K-means算法：是一种聚类算法。

3.SVM：一种监督式学习的方法，广泛运用于统计分类以及回归分析中

4.Apriori ：是一种最有影响的挖掘布尔关联规则频繁项集的算法。

5.EM：最大期望值法。

6.pagerank：是google算法的重要内容。

7. Adaboost:是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器。

8.KNN:是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一。

9.Naive Bayes：在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯（Naive Bayes）

10.Cart：分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝。

关联规则规则定义

在描述有关关联规则的一些细节之前，我们先来看一个有趣的故事： "尿布与啤酒"的故事。

在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和

数据挖掘

啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是："跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

完整的Data Mining 包含哪些步骤？

1、数据挖掘环境

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识. 　数据挖掘环境可示意如下图:

数据挖掘环境框图.gif

2、数据挖掘过程图

下图描述了数据挖掘的基本过程和主要步骤

数据挖掘的基本过程和主要步骤

3、数据挖掘过程工作量

在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.

图3数据挖掘过程工作量比例

4、数据挖掘过程简介

过程中各步骤的大体内容如下:

(1). 确定业务对象

清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.

(2). 数据准备

1)、数据的选择

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.

2)、数据的预处理

研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.

3)、数据的转换

将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.

(3). 数据挖掘

对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.

(4). 结果分析

解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.

(5). 知识的同化

将分析所得到的知识集成到业务信息系统的组织结构中去.

5、数据挖掘需要的人员

数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类.

业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.

数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.

数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.

从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.这一过程要反复进行牞在反复过程中，不断地趋近事物的本质，不断地优先问题的解决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。

目前业界常用的数据挖掘分析工具？

Data Mining工具市场大致可分为三类：

一般分析目的用的软件包

K-Miner（神通数据挖掘分析系统，MPP+SMP并行计算架构）

AlpineMiner(AlpineDataLabs)

TipDM(顶尖数据挖掘平台)

GDM（Geni-Sage Data Mining Analysis System，博通数据挖掘分析系统）

SAS Enterprise Miner

KXEN(凯森)

IBM Intelligent Miner

Unica PRW

SPSS Clementine

SGI MineSet

Oracle Darwin

Angoss KnowledgeSeeker

2. 针对特定功能或产业而研发的软件

KD1（针对零售业）

Options & Choices（针对保险业）

HNC（针对信用卡诈欺或呆帐侦测）

Unica Model 1（针对行销业）

iEM System （针对流程行业的实时历史数据）

3. 整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系统

Cognos Scenario and Business Objects

国际相关

[Journals]

1.ACM Transactions on Knowledge Discovery from Data (TKDD)

2.IEEE Transactions on Knowledge and Data Engineering (TKDE)

3.Data Mining and Knowledge Discovery

4.Knowledge and Information Systems

5.Data & Knowledge Engineering

[Conferences]

1.SIGMOD:ACM Conference on Management of Data (ACM)

2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM)

3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society)

4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM)

5.WWW:International World Wide Web Conferences (W3C)

6.CIKM:ACM International Conference on Information and Knowledge Management (ACM)

7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI)

阅读全文

0 0