数据挖掘概论

来源:互联网 发布:c语言可以编安卓软件吗 编辑:程序博客网 时间:2024/05/15 03:12


什么是数据挖掘?

    数据挖掘从数据、信息再到知识形成完整的决策流程,从客观的定量分析到抽象逻辑的定性结果,是经过实践检验并能辅助管理者的判断取向。

数据挖掘的挖掘功能

数据挖掘的挖掘功能包括:分类、聚类、预测和关联四大类模型,基于统计分析。

分类:

聚类:

 

 

 

 

 

 

 

预测

 

 

 

 

 

 

 

 

 

 

 

 

关联

数据挖掘应用

    数据挖掘在保险、税务、电信、金融、互联网等等方面有着广泛的应用。保险方面,客户关系需要优化,风险需要控制,保费、保单、保险投资组合等相关产品开发。税务方面,税源分析、税务稽查、纳税评估等等。电信,了解目标用户的需求。金融,描述用户特征,预测未来需求分析。互联网,快速处理图片、网页、视频等非结构数据,把握消费者行为和个性化需求。

   首先,根据某个行业的具体问题,利用技术手段,建立模型,然后反复验证。

 

数据挖掘与统计分析

应用的角度借鉴伟人的话是“分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)数据挖掘是不需要对变量进行假设分析,而统计分析需要先对数据变量进行分析。

 

数据挖掘的基础

 

   概率论和数理统计为数据挖掘提供了必要的学习支撑。

 

 

 

数据挖掘的几大经典算法

关联规则

 

   关联式规则(Association Rules, AR),又称关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 (摘自维基百科)。关联规则挖掘的主要目的是发现数据中有意义的关联关系,著名案例是购物篮分析模型,借助关联规则挖掘,发现潜在的隐藏在数据里面的顾客购买行为,从而了解顾客的偏好和习惯,设计合适的商品组合。

   支持度,置信度,提升度这三个指标是关联规则中重要的度量。已知AB两种商品的项集。支持度:同时购买AB两种商品项集的概率值--。置信度:购买A商品的条件下又购买B商品项集的概率值——。提升度:在购买A的前提下购买B和单单购买B的概率值的比值——(当该值小于1,则说明购买A会对购买B起副作用)

关联规则的生成:

1、找出所有满足最小支持度的频繁项集

2、根据频繁项集生成满足最小置信度的强关联规则

    

   顾客会同时买那些商品? 

事务性数据库:

顾客

商品

赵一

牛奶 啤酒

钱二

面包 尿布 啤酒 水果

张三

牛奶 尿布 啤酒 鸡蛋

李四

面包 啤酒 尿布 鸡蛋

 

 

项即是商品,关联规则就是从商品购买中找到形如“啤酒->尿布”的规则形式

分析:在事物集S中,赵一购买了啤酒和牛奶,是第一个事务记录。钱二购买了面包、尿布、啤酒和水果,是第二个事务记录。张三购买了牛奶、尿布、啤酒喝鸡蛋,是第三个事务记录。李四购买了面包、啤酒、尿布和鸡蛋,是第四个记录。因此事务总数是4.

   我们设A为顾客购买了面包,则顾客购买面包的概率为PA=1/2,设B为顾客购买了牛奶,则顾客购买面包的概率为PB=1/2,设C为顾客购买了啤酒,则顾客购买啤酒的概率为PC=1,设D为顾客购买了水果,则顾客购买水果的概率为PD=1/4,设E为顾客购买了尿布,则顾客购买尿布的概率为PE=3/4,设F为顾客购买了鸡蛋,则顾客购买鸡蛋的概率为PF=1/2

   第一步计数。计算每个1-项出现的计数和指出度

1-项集

计数 

支持度

{面包}

2

0.5

{牛奶}

2

0.5

{啤酒}

4

1

{水果}

1

0.25

{尿布}

3

0.75

{鸡蛋}

2

0.25

第二步剪枝。删除不满足最小支持度的项

1-项集

计数 

支持度

{面包}

2

0.5

{牛奶}

2

0.5

{啤酒}

4

1

{尿布}

3

0.75

{鸡蛋}

2

0.25

第三步1-项连接{面包}^{牛奶}={面包,牛奶}继续进行计数剪枝

计数:

2-项集

计数

支持度

{面包,牛奶}

0

0

{面包,啤酒}

2

0.5

{面包,尿布}

2

0.5

{面包,鸡蛋}

1

0.25

{牛奶,啤酒}

2

0.5

{牛奶,尿布}

1

0.25

{牛奶,鸡蛋}

1

0.25

{啤酒,尿布}

3

0.75

{啤酒,鸡蛋}

2

0.5

{尿布,鸡蛋}

2

0.5

剪枝后:

2-项集

计数

支持度

{面包,啤酒}

2

0.5

{面包,尿布}

2

0.5

{牛奶,啤酒}

2

0.5

{啤酒,尿布}

3

0.75

{啤酒,鸡蛋}

2

0.5

{尿布,鸡蛋}

2

0.5

第四步:2—项连接,3—项计数,3—项剪枝

剪枝后

3-项集

计数

支持度

{面包,啤酒,尿布}

2

0.5

{啤酒,尿布,鸡蛋}

2

0.5

第五步,1、对于每一个频繁项集L,生成L的所有非空子集

        2、对于每一个非空子集S,求出满足最小置信度的规则S->L-S

在本题中得到啤酒->尿布^面包 置信度PABC|A)最小

决策树

决策树是一个类似于人们决策过程的树结构。从根结点开始,每个分枝代表一个新的决策事件,会生成两个或多个分枝,每个叶子代表一个最终判定所属的类别。

    利用决策树能构建具有预测功能的分类模型。通过产生针对特征属性和分类结果之间的映射关系及逻辑策略,来表示所分析问题的各种发生可能性,且能够借助树形结构清晰展示流程。这里的特征属性即变量。

决策树是一个从数据中获取规则和知识的过程。首先利用训练数据生成一个决策树。然后进行预测分析

决策树模型工作原理

  一般来说,随机事件发生概率越小,不确定性越大,包含的信息量越大,随机事件发生的概率越大,不确定性就越小,包含的信息量就越小。必然事件的概率为1,信息量为0.

熵的概念由美国数学家香农首先提出的。主要用来度量信息,熵可以理解为理解为不确定度。越是有序的系统,熵值越低。

在决策树中,信息熵、条件熵、信息增益是三个很重要的度量。信息熵,信息的度量,特征属性变化越多熵值越大。条件熵,基于条件XY的信息熵的计算方法。信息增益衡量属性价值的一个度量。

信息熵:

条件熵:

信息增益:

决策树构造——节点拆分

决策树构造

贝叶斯

     贝叶斯定理Bayes' theorem)是概率论中的一个结论,它跟随机变量条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的 陈述。贝叶斯公式的用途在于通过己知三个概率函数推出第四个。它的内容是:B出现的前提下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概 率再除以B出现的概率。通过联系AB,计算从一个事件产生另一事件的概率,即从结果上溯原。(摘自维基百科)

贝叶斯公式:

贝叶斯公式应用模型

聚类分析(以层次分析为例)

什么是聚类分析?

聚类分析是研究数据对象之间可能存在的相似性,并根据相似程度的大小,对他们进行归类分析分组,使得同一类中的对象区域相似,差别较小;不同类中对象趋于不相似,差别较大。总之,一句话“物以类聚,人以群分”。

聚类分析,有两个基本概念:样本和变量。样本通常指的是数据对象本身的表现,是记录。

变量可以理解为研究对象的特征属性,是指标。依据分析的标准不同,分为R型聚类(样本)和Q型聚类(变量)。

聚类分析的关键是定距离来描述相似度。

层次分析模型

写在后面的话

因为时间和个人代码能力比较弱,理解比较浅显,理解错误之处还请包涵。

 

0 0
原创粉丝点击