数据挖掘方法案例介绍

来源：互联网发布：淘宝上库克运动是真么编辑：程序博客网时间：2024/05/01 14:37

数据挖掘方法案例介绍

发表于 2013-11-14 22:14 来源：未知

回归

分类算法是建立事例特征对应到分类的方法。分类必须是离散的，像信用卡的种类只有三种，如果是要通过客户收入、婚姻状况、职业等特征预测客户会使用信用卡消费多少金额时，分类算法就无能为力了，因为消费金额可能是大于0的任意值。这时只能使用回归算法。

例如，下表是工厂生产情况。

机器数量

工人数量

生产数量

400

389

674

……

使用线性回归后，得到了一个回归方程：生产数量=α+β·机器数量+γ·工人数量。代表每多一台机器就可以多生产β单位的产品，每多一个工人就可以多生产γ单位的产品。

除了简单的线性回归和逻辑回归两种，决策树可以建立自动回归树模型，神经网络也可以进行回归，实际上，逻辑回归就是去掉隐藏层的神经网络。

例如，服装销售公司要根据各地分销店面提交的计划预计实际销售量。

使用自动回归树得到上图的模型，假如山东销售店提交的计划童装数量是500套，预计销售量是-100+0.6×500=200套，按6Sigma原则，有99.97%的概率实际销售量可能是200±90套。广州提交计划童装300套，预计销售量是20+0.98×300=314±30套。广州的销售店制定的童装计划比山东的准确。

聚类

分类算法的目的是建立事例特征到类别的对应法则。但前提是类别是已存在的，如已知道动物可以分成哺乳类和非哺乳类，银行发行的信用卡有银卡、金卡、白金卡三种。

有时在分类不存在前，要将现有的事例分成几类。比如有同种材料要分类装入到各个仓库中，这种材料有尺寸、色泽、密度等上百个指标，如果不熟悉材料的特性很难找到一种方法将材料分装。

又例如，银行刚开始信用卡业务时，没有将客户分类，所有的客户都使用同一种信用卡。在客户积累到一定的数量后，为了方便管理和制定市场策略，需要将客户分类，让不同类别的客户使用不同的信用卡。但问题是，银行该把客户分成几个类别，谁该属于哪一类。

假定银行仅仅要参照客户的收入和使用信用卡销售金额两个指标对客户分类。通常情况下，仅仅是衡量这些指标的高低来分类，如规定收入小于4000，且消费小于2000的客户分成第一类；收入在4000至8000，消费在2000至4000的客户分成第二类；收入在8000至12000，消费在4000至6000的客户分成第三类；收入在12000以上，消费在6000以上分成第四类。下面的图展示了这种分类。

图中三角形的点代表客户，图中的红色线条是对客户的分类。可以看到这种不合理，第一类别没有包含任何事例，而第四类也只有少量事例，而第二和第三类分界处聚集着大量事例。

观测图像，发现大部分客户事例聚集在一起形成了三个簇，下图中用三个椭圆标出了这些簇。

同在一个簇中的客户有着类似的消费行为，黑色簇中的客户消费额与收入成正比；蓝色簇中的客户不习惯使用信用卡消费，可以对这类客户发放一种低手续费的信用卡，鼓励他们使用信用卡消费；绿色簇中的客户消费额相对收入来说比较高，应该为这类客户设计一种低透支额度的信用卡。

聚类模型就是这种可以识别有着相似特征事例，把这些事例聚集在一起形成一个类别的算法。

聚类模型除了能将相似特征的事例归为一类外，还常用来发现异常点。

像上图中用红圈标出的点，这两个客户偏离了已有的簇，他们的消费行为异于一般人，消费远超出收入。意味他们有其他不公开的收入来源，这些客户是有问题的。

科学试验中，研究人员对异常点很感兴趣，通过研究不寻常的现象提出新的理论。

聚类的另一个用途是发现属性间隐含的关系。例如有30名学生考试成绩：

学号

美术

语文

物理

历史

英语

音乐

数学

化学

31001

31002

31003

……

教师想知道学科之间是否有关联，如果学生某门学科成绩优秀，是否会在另一门学科上也有优势。

通过聚类后将30名学生分成了3个类：

变量

状态

总体(全部)

分类 3

分类 2

分类 1

大小

语文

平均值

71.6

89.6

59.4

语文

偏差

13.39

4.38

3.95

5.46

英语

平均值

72.7

88.1

56.1

英语

偏差

14.27

4.4

6.9

4.46

音乐

平均值

89.1

74.4

音乐

偏差

9.71

7.31

4.12

5.27

物理

平均值

56.6

93.4

物理

偏差

15.96

4.42

4.84

4.95

数学

平均值

74.3

57.3

92.3

数学

偏差

15.16

4.4

3.97

4.95

美术

平均值

90.6

71.8

71.4

美术

偏差

10.43

5.38

4.71

5.66

历史

平均值

73.2

87.6

58.1

历史

偏差

13.23

5.85

4.43

5.13

化学

平均值

74.7

56.2

90.6

化学

偏差

15.09

3.06

5.39

6.02

分类1学生的共同特点是他们的物理、数学、化学平均分都比较高，但语文、历史、英语的分数很低；分类2则恰恰相反。从中，可以得到规则：物理、数学和化学这三门学科是有相关性的，这三门学科相互促进，而与语文、历史、英语三门学科相排斥。

分类1中的学生

序列聚类

新闻网站需要根据访问者在网页上的点击行为来设计网站的导航方式。通过聚类算法可以发现网页浏览者的行为模式，比如识别出了一类浏览者的行为：喜欢察看体育新闻和政治新闻。但浏览者访问网页是有顺序的，先浏览体育新闻再浏览政治新闻，与先浏览政治新闻再浏览体育新闻是两种不同的行为模式，当一个浏览者在浏览体育新闻时，需要预测他下一步会访问哪个网页。

超市里也需要识别顾客购物的顺序，比如发现一类购物顺序是：尿布——奶瓶——婴儿手推车——幼儿玩具，当一个顾客购买了尿布的时候，就可以陆续向顾客寄发奶瓶、婴儿手推车、幼儿玩具的传单。

序列聚类通过对一系列事件发生的顺序聚类，来预测当一个事件发生时，下一步会发生什么事件。

关联

在客户的一个订单中，包含了多种产品，这些产品是有关联的。比如购买了轮胎的外胎就会购买内胎；购买了羽毛球拍，就会购买羽毛球。

关联分析能够识别出相互关联的事件，预测一个事件发生时有多大的概率发生另一个事件。

0 0

数据挖掘方法案例介绍

数据挖掘方法案例介绍

分类

决策树

Naïve Bayes

神经网络

回归

聚类

序列聚类

关联