数据挖掘(自己总结的,缺少不少图片)

来源:互联网 发布:ubuntu安装源 编辑:程序博客网 时间:2024/06/06 01:01

前言 做实际应用时,领域知识非常重要, 方法也重要

对于一个应用或研究,多个模型结合到一起往往效果更好,同时,一个方法的应用也不是单一, 一个方法有多种用途,可以单独解决几类问题,也可以作为一个步骤辅助其他方法解决其他类问题, 总之, 思维灵活非常重要

以下可以参加 <<数据挖掘概念与技术>> Han Jiawei, <<模式识别>> 课件, 亦可以参考网络资料

OLAP,数据仓库,星形模型,雪花模型等

KDD的过程

1 频繁模式挖掘 \ 关联规则挖掘

挖掘频繁出现的模式,挖掘有关联的模式,例如在购物中,发现购买水果的很多,同时购买啤酒和尿布的也很多,服务组合中,挖掘同时多次出现在组合流程中的服务、挖掘有关联的服务等等

       相关概念:支持度 = P(A jiao B),置信度(A->B) = P(B|A)= P(AB)/P(A)

频繁模式挖掘方法:

1.     Apriori:基于:频繁项集的子集一定是频繁的、非频繁项集的超级一定是非频繁的;主要分为连接布和剪枝步,连接(数据库中的操作)步有K项集生成K+1项集,剪枝步去掉不可能是频繁项集的项。

2.     FP-Growth:Apriori的改进,上述算法在大数据时,空间和时间开销较大。关键:构造FP-Tree (与字符串处理中的Prefix Tree异曲同工)

得到频繁模式后,利用置信度计算公式可以对其中的每一项做关联规则挖掘,进而发现关联规则

还有多层关联规则挖掘等,因为概念通常是分层的,如dell laptop属于laptop,laoptop属于computer

多维关联规则挖掘,多个谓词,

基本的关联规则挖掘 buys(X, ‘digital camera’)-> buys(X, ‘HP printer’);

多维:age(x, ’20-29’) ^occupation(X, ‘student’) –>buys(x, ‘laptop‘)

      age(x, ’20-29’) ^buys(X, ‘laptop’) ->buys(x, ‘hp printer’)

思考:关联规则挖掘的是 A->Bjiao C,A jiao B -> C,能不能发现或者有没有意义发现A-> B or C, A or B -> C ???   应该当B C 或 A B是一类或者有其他关系时才会有意义

 

2 聚类

Ø  物以类聚, 人以群分.

Ø  普遍应用: 模式识别, 空间数据分析, 图像处理, 经济学(特别指市场研究),WWW(文档分类, web日志挖掘)

Ø  好的聚类方法: 最大化类内相似性, 最小化类间相似性;(感觉有点像是不能同时达到的目标)

Ø  数据挖掘对聚类的要求:

Ø  两个对象距离的定义非常重要, 针对特定的应用,距离要能标识对象的内在关系;这里可能要用到领域知识

Ø  距离的通常计算:区间标度变量(标准化: z-score,最小最大标准化,距离: 距离公式, 皮尔逊系数, 余弦, 修正余弦等), 二元变量, 标称变量(红,蓝, 绿),序数变量(第一, 第二,。。,), 比例标度型变量,混合型变量

Ø  聚类方法:方法是灵活的,并且是相互配合的。聚类存在大量的算法,很难用简洁的分类划分,通常,可以分为:

  划分方法:k-means(扩展:其他策略, FCM模糊聚类), k-中心点(PAM,。。。)

  层次方法:BIRCH,

  基于密度的方法:DBSCAN

  基于网格的方法:

  基于模型的方法:SOM,期望最大化,概念分类

  其他

2.1划分方法

2.1.1 K-means

 

优点:1)复杂度: O(tkn), 其中n 是对象的数目,k是簇的数目, t 是迭代的次数. 通常k,t << n.

2)通常以局部最优结束.使用遗传算法技术可以达到全球最优

缺点:1)只有在簇的平均值被定义的情况下才能使用,那当涉及有分类属性的数据时该怎么办?

2)需要事先给出k,簇的数目

3)不能处理噪声数据和孤立点

4)不适合发现非凸面形状的簇

有k-模等很多优化方法

2.1.2 FCM模糊聚类

将模糊数学引入聚类中(模糊聚类有很多方法,这只是其中一个),利用隶属度的概念,具体见其他word文件。

2.1.3 K中心点

2.2层次方法

2.2.1 凝聚层次聚类(AGNES),分裂层次聚类(DIANA)

2.2.2 层次聚类和基于距离聚类的集成(BIRCH, CURE, CHAMELEON)

2.3基于密度的方法

2.3.1   DBSCAN

邻域,核心对象,直接密度可达的,密度相连的

2.3.2   其他(OPTICS, DENCLUE, …)

2.4基于网格的方法

2.4.1 STING:统计信息网格

2.4.2 WaveCluster: 利用小波变换聚类

2.5基于模型的方法

AutoClass在产业界很流行;

其他的基于模型的聚类方法:神经网络(SOMs, 还可以用于可视化等)、期望最大化等

2.6其他

聚类高维数据:CLIQUE(可以看做基于密度和基于网格的聚类方法,维增长子空间聚类方法),PROCLUS(维归约子空间聚类方法), 基于频繁模式的聚类方法

基于约束的聚类方法          离群点分析

3 分类预测

急切

 

回归: 线性回顾, 非线性回归

其他相关概念: 误差, 灵敏性, 交叉验证, 装袋和提升, 置信区间, ROC ……

 

3.1决策树

 

决策树(判定树)

3.     基本思想: 使后继结点的数据尽可能的”纯”; 当结点N上的所有模式都来自同一个类时, 不纯度为0; 当分布很均匀时, 不纯度很大;

4.     常用的不纯度度量: 熵不纯度, GINI不纯度, 误分类不纯度

 

5.     如何对节点N选择: 选择使不纯度下降最快的属性

常用:

6.     信息增益(偏向有较多不同取值的属性)

7.     

8.     

9.     信息增益率

10. 

11.  GINI

12. 

 

13.  分支停止准则

14.  剪枝:

15.   

16.  决策树的用法

•    大数据集 (理想情况):

–  将数据集划分成3部分: GS, VS, TS

–  根据GS生成一个树

–  根据VS进行后剪枝

–  在TS测试该树的准确率

•    小数据集 (通常)

–  根据整个数据集生成一个树

–  用10折交叉验证进行后剪枝

–  用10折交叉验证测试树的准确率

 

17.  优势:

1. 语义可表示 2 分类速度快 3 可以自然嵌入专家知识

(基于关联规则分析的分类方法能够获得比典型决策树方法更高的分类准确性,Han Jiawei, book, p245 6.10)

18.  ID3和C4.5, 还有C5.0, CART, 随机森林(抽样样本数据、和样本属性,构建很多个(成百上千)的决策树)等(Weka上有实现)

3.2贝叶斯决策论

分类, 类别 w1, w2, … , wn,特征 x1, x2, … , xm

先验概率:P(w1)

条件概率:P(x|w1)

后验概率:P(w1|x), 观察到特征x后,其属于类别w1的概率

         P(w1|x) = P(w1, x) / P(x) = P(w1)P(x|w1) / (P(wi)P(x|wi)之和)

后验概率,即贝叶斯决策, 具有最小化误差概率;

19.  计算后验概率时,需要P(wi),P(x|wi), 大多数时候,这两个概率函数是未知的,需实验统计 或 概率密度估计估计(参数估计:最大似然估计、贝叶斯估计, 非参数估计:Parzen窗方法,Kn近邻估计)

20.  也可以直接估计后验概率P(wi|x): k近邻规则,

朴素贝叶斯: 特征间相互独立

贝叶斯网络: 特征间有关联; 有向无环图

 

3.3期望最大化算法

应用:

在数据不完整或有缺失情况下学习

当似然函数难以直接计算时,初始化某些未知参数使问题简化

3.4隐马尔可夫模型

马尔可夫链,转移概率矩阵,k-阶马尔科夫过程

隐马尔科夫模型HMM:状态不可见;在时刻t,隐藏的状态以一定的概率激发出可见的符号x(t);在长度为T的离散时间上的可见符号序列{v3, v2, v4 , v3}。。。

3.5 PCA

最小化降维的误差,还有其他目标的方法: LDA等

3.6 SVM

向量映射到高维空间

3.7神经网络遗传算法 粒子群算法 蚁群算法 模拟退火等

任何一个判别函数都可以由一个三层神经网络表示

 

 

4. 其他

Ø 挖掘流,时间序列和序列数据

Ø 图挖掘,社会网络分析和多关系挖掘

Ø 挖掘对象,空间,多媒体,文本和web数据

Ø 数据挖掘中的隐私问题

 

5. 相关资料

1.     数据挖掘概念与技术  Han Jiawei

2.     模式识别

3.     Blog,中文http://www.cnblogs.com/LeftNotEasy/

4.     大牛的Blog  http://www.autonlab.org/tutorials/

5.     Blog,数据挖掘十大算法 http://www.cognoschina.net/home/space.php?uid=10&do=blog&id=2299

原创粉丝点击