数据挖掘概论

来源：互联网发布：c语言可以编安卓软件吗编辑：程序博客网时间：2024/05/30 23:55

什么是数据挖掘？

数据挖掘从数据、信息再到知识形成完整的决策流程，从客观的定量分析到抽象逻辑的定性结果，是经过实践检验并能辅助管理者的判断取向。

数据挖掘的挖掘功能

数据挖掘的挖掘功能包括：分类、聚类、预测和关联四大类模型，基于统计分析。

分类：

聚类：

预测

关联

数据挖掘应用

数据挖掘在保险、税务、电信、金融、互联网等等方面有着广泛的应用。保险方面，客户关系需要优化，风险需要控制，保费、保单、保险投资组合等相关产品开发。税务方面，税源分析、税务稽查、纳税评估等等。电信，了解目标用户的需求。金融，描述用户特征，预测未来需求分析。互联网，快速处理图片、网页、视频等非结构数据，把握消费者行为和个性化需求。

首先，根据某个行业的具体问题，利用技术手段，建立模型，然后反复验证。

数据挖掘与统计分析

应用的角度借鉴伟人的话是“分析报告给你后见之明 (hindsight)；统计分析给你先机 (foresight)；数据挖掘给你洞察力 (insight)”数据挖掘是不需要对变量进行假设分析，而统计分析需要先对数据变量进行分析。

数据挖掘的基础

概率论和数理统计为数据挖掘提供了必要的学习支撑。

数据挖掘的几大经典算法

关联规则

关联式规则(Association Rules, AR)，又称关联规则，是数据挖掘的一个重要课题，用于从大量数据中挖掘出有价值的数据项之间的相关关系。 (摘自维基百科)。关联规则挖掘的主要目的是发现数据中有意义的关联关系，著名案例是购物篮分析模型，借助关联规则挖掘，发现潜在的隐藏在数据里面的顾客购买行为，从而了解顾客的偏好和习惯，设计合适的商品组合。

支持度，置信度，提升度这三个指标是关联规则中重要的度量。已知A和B两种商品的项集。支持度：同时购买A和B两种商品项集的概率值--。置信度：购买A商品的条件下又购买B商品项集的概率值——。提升度：在购买A的前提下购买B和单单购买B的概率值的比值——（当该值小于1，则说明购买A会对购买B起副作用）

关联规则的生成：

1、找出所有满足最小支持度的频繁项集

2、根据频繁项集生成满足最小置信度的强关联规则

顾客会同时买那些商品？

事务性数据库：

顾客

商品

赵一

牛奶啤酒

钱二

面包尿布啤酒水果

张三

牛奶尿布啤酒鸡蛋

李四

面包啤酒尿布鸡蛋

项即是商品，关联规则就是从商品购买中找到形如“啤酒->尿布”的规则形式

分析：在事物集S中，赵一购买了啤酒和牛奶，是第一个事务记录。钱二购买了面包、尿布、啤酒和水果，是第二个事务记录。张三购买了牛奶、尿布、啤酒喝鸡蛋，是第三个事务记录。李四购买了面包、啤酒、尿布和鸡蛋，是第四个记录。因此事务总数是4.

我们设A为顾客购买了面包，则顾客购买面包的概率为P（A）=1/2，设B为顾客购买了牛奶，则顾客购买面包的概率为P（B）=1/2，设C为顾客购买了啤酒，则顾客购买啤酒的概率为P（C）=1，设D为顾客购买了水果，则顾客购买水果的概率为P（D）=1/4，设E为顾客购买了尿布，则顾客购买尿布的概率为P（E）=3/4，设F为顾客购买了鸡蛋，则顾客购买鸡蛋的概率为P（F）=1/2。

第一步计数。计算每个1-项出现的计数和指出度

1-项集

计数

支持度

{面包}

0.5

{牛奶}

0.5

{啤酒}

{水果}

0.25

{尿布}

0.75

{鸡蛋}

0.25

第二步剪枝。删除不满足最小支持度的项

1-项集

计数

支持度

{面包}

0.5

{牛奶}

0.5

{啤酒}

{尿布}

0.75

{鸡蛋}

0.25

第三步1-项连接{面包}^{牛奶}={面包,牛奶}继续进行计数剪枝

计数：

2-项集

计数

支持度

{面包，牛奶}

{面包，啤酒}

0.5

{面包，尿布}

0.5

{面包，鸡蛋}

0.25

{牛奶，啤酒}

0.5

{牛奶，尿布}

0.25

{牛奶，鸡蛋}

0.25

{啤酒，尿布}

0.75

{啤酒，鸡蛋}

0.5

{尿布，鸡蛋}

0.5

剪枝后：

2-项集

计数

支持度

{面包，啤酒}

0.5

{面包，尿布}

0.5

{牛奶，啤酒}

0.5

{啤酒，尿布}

0.75

{啤酒，鸡蛋}

0.5

{尿布，鸡蛋}

0.5

第四步：2—项连接，3—项计数，3—项剪枝

剪枝后

3-项集

计数

支持度

{面包，啤酒，尿布}

0.5

{啤酒，尿布，鸡蛋}

0.5

第五步，1、对于每一个频繁项集L，生成L的所有非空子集

2、对于每一个非空子集S，求出满足最小置信度的规则S->L-S

在本题中得到啤酒->尿布^面包置信度P（ABC|A）最小

决策树

决策树是一个类似于人们决策过程的树结构。从根结点开始，每个分枝代表一个新的决策事件，会生成两个或多个分枝，每个叶子代表一个最终判定所属的类别。

利用决策树能构建具有预测功能的分类模型。通过产生针对特征属性和分类结果之间的映射关系及逻辑策略，来表示所分析问题的各种发生可能性，且能够借助树形结构清晰展示流程。这里的特征属性即变量。

决策树是一个从数据中获取规则和知识的过程。首先利用训练数据生成一个决策树。然后进行预测分析

决策树模型工作原理

一般来说，随机事件发生概率越小，不确定性越大，包含的信息量越大，随机事件发生的概率越大，不确定性就越小，包含的信息量就越小。必然事件的概率为1，信息量为0.

熵的概念由美国数学家香农首先提出的。主要用来度量信息，熵可以理解为理解为不确定度。越是有序的系统，熵值越低。

在决策树中，信息熵、条件熵、信息增益是三个很重要的度量。信息熵，信息的度量，特征属性变化越多熵值越大。条件熵，基于条件X的Y的信息熵的计算方法。信息增益衡量属性价值的一个度量。

信息熵：

条件熵：

信息增益：

决策树构造——节点拆分

决策树构造

贝叶斯

贝叶斯定理（Bayes' theorem）是概率论中的一个结论，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理（贝叶斯更新）能够告知我们如何利用新证据修改已有的看法。通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。贝叶斯公式的用途在于通过己知三个概率函数推出第四个。它的内容是:在B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。（摘自维基百科）

贝叶斯公式：

贝叶斯公式应用模型

聚类分析（以层次分析为例）

什么是聚类分析？

聚类分析是研究数据对象之间可能存在的相似性，并根据相似程度的大小，对他们进行归类分析分组，使得同一类中的对象区域相似，差别较小；不同类中对象趋于不相似，差别较大。总之，一句话“物以类聚，人以群分”。

聚类分析，有两个基本概念：样本和变量。样本通常指的是数据对象本身的表现，是记录。

变量可以理解为研究对象的特征属性，是指标。依据分析的标准不同，分为R型聚类（样本）和Q型聚类（变量）。

聚类分析的关键是定距离来描述相似度。

层次分析模型

写在后面的话

因为时间和个人代码能力比较弱，理解比较浅显，理解错误之处还请包涵。

0 0