数据挖掘经典算法概述以及详解链接

来源:互联网 发布:阿里云建ss 编辑:程序博客网 时间:2024/05/20 07:54

po主最近在学习数据挖掘方面相关算法,今天就在这里总结一下数据挖掘领域的经典算法,同时提供每个算法的详解链接,就当做在这里温习吧。对于熟悉的算法我会有较多的描述,不熟悉的算法可能描述较少,以免误导,但是会贴出学习的链接。由于本人也是资历尚浅,必然有错误的地方,也希望大家能够指出来,我也会改正的,谢谢大家。

数据挖掘方面的算法,主要可以用作分类,聚类,关联规则,信息检索,决策树,回归分析等。他们的界限并不是特别的明显,常常有交叉,如聚类算法在一定程度上也是一种分类算法。分类算法比较成熟,并且分支也较多。

这里先介绍两个概念:监督学习非监督学习。通俗一点说,如果我们提前设置一些标签,然后对于每个待分类项根据一定规则分类到某些标签,这就是监督学习。如果我们提前不知道标签,而是通过一定的统计手段将一定量的数据,分成一个个类别,这就是非监督学习,通常用作“聚类”(不绝对)。当然监督学习常用作分类学习,也可用作回归分析等。

1.K-Means算法

K-Means算法是一种常用的非监督学习聚类算法,也常用在图像检索领域,如K-Means+BoF算法。它的作用就是我们可以在不知道有哪些类别的情况下,将数据以K个类心,聚成K个聚类
通常我们会先确定一个相异度度量方法,常用的相异度有,欧氏距离,曼哈顿距离,马氏距离,余弦距离等。根据两个数据之间的“距离”来确定两个数据之间的相异度。
K-Means算法步骤:

1.所有数据中取K个数据(可随机,也可选定)作为K个聚类的初始类心。
2. 遍历下一个数据,分别计算它到K个类心的“距离”,并将其归类到“距离”最小的那个类心所在聚类中。
3. 重新调整该聚类的类心,一般来说,类心的每维为该聚类中所有数据该维的算术平均。
4. 重复步骤2、3直到所有数据均被聚类
5. 输出结果

K-Means算法中K值的大小甚为关键,当K值较大时,时间消耗会很大,但是聚类结果也较好一点。当K值较小时,聚类结果会比较单调。当然K值大小也依赖于数据量的大小,另外,初始的K个类心的选择对结果也有较大的影响,最好这K个类心之间差异较大。
K-Means学习可以参考下面的链接:

算法杂货铺——k均值聚类(K-means)

2.Apriori算法

Apriori算法可以说是最为经典的关联规则算法,之后的关联规则算法多数基于该算法。它的作用是依据数据,挖掘各个事务之间的可能关联,我之前感兴趣也实现过一次,所以较为熟悉。
举一个大家较熟悉的栗子:曾经有一个有趣的发现,跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在”尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。这是沃尔玛的真是案例,这一小小发现曾经给沃尔玛带来较为可观的利润,这便利用了关联规则挖掘。这种关联从主观意识上很难想到,但是通过数据就可以。
Apriori算法本身不难,而且很有意思。但是理解这个算法稍微费劲,由于自己以前写过这个算法的详解以及实现代码,所以这里贴上自己以前的链接吧

web挖掘之Apriori算法 JAVA实现

3.Naive Bayes(朴素贝叶斯)

朴素贝叶斯是很经典的统计分类方法,属于监督学习,它的理论依据是贝叶斯原理
这里写图片描述,也是最为简单的贝叶斯分类器。
朴素贝叶斯的作用也比较容易理解,举个例子,你在大街上看见一个男生穿着格子衫,那么你觉得他很有可能是理工男(无意黑),这是因为穿格子衫的大部分都是理工男,而这一点,是建立在我们的已知的经验得出的。即,在已知他是穿的格子衫的情况下,他是理工男的可能性最大,这就是条件概率用来分类的应用。
Naive Bayes算法的定义如下

  1. 假设有一个可由n个独立属性表示的待分类项这里写图片描述其中这里写图片描述为n个独立属性.
  2. 已知有m个类别这里写图片描述
  3. 求条件概率这里写图片描述
  4. 取上面条件概率的最大值,其对应的类别即为待分类项所在的类别

可见,条件概率的计算是算法中的关键与难点,这个时候就需要用到贝叶斯公式了。假设我们有一定量的训练样本,其中是已经分类过的待分类项。下面是条件概率的计算步骤

  1. 统计计算每个类别的频率,即这里写图片描述
  2. 统计计算每个特征属性在每个类别中的条件概率,即这里写图片描述
  3. 以及贝叶斯公式可得 这里写图片描述
    又因为属性这里写图片描述相互独立,可得
    这里写图片描述
    另外根据全概率公式可知这里写图片描述
    根据以上公式,即可求得待分类项对于每个类别的条件概率。

实验上,我们通常用一部分数据作为训练样本,用一部分数据作为测试样本,以避免过度拟合。理论上说,朴素贝叶斯的分类效果应该优于决策树分类的,但是实际生活中朴素贝叶斯的效果却不太理想,因为很难保证各特征属性相互独立。
下面贴上链接

算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)

4.KNN算法(K近邻算法)

KNN算法与K-Means算法有相似之处,但是KNN算法严格来说是一种归类算法,应属于半监督学习(本人臆测。不严谨)。KNN算法算是最简单的归类算法了。
我们通常说,物以类聚,人以群分,你属于的群体很大程度上描述了你是怎么样的人。KNN算法的核心思想也是如此,我们取K个与待分类项最接近的项,统计这些项分别属于哪些类别,最后哪个类别中所占的项最多,即认为是该待分类项所在的类别。
与K-means算法相同,这里面同样涉及到了相异度度量的问题,我们需要设定一个度量想法来确定两个项之间的相异度,如,欧氏距离,余弦距离,曼哈顿距离等。

wikipedia官方解释上有这样一张图片:
这里写图片描述

问其中带问号的点属于什么类别,

  • 当K==3,那么我们统计得到,离带问号的点最接近的3个点中2个红色三角,1个蓝色正方,那么根据KNN算法,该点与红色三角属于同一类别。
  • 当K==5,那么我们统计得到,离带问号的点最接近的3个点中2个红色三角,3个蓝色正方,那么根据KNN算法,该点与蓝色正方属于同一类别。

由此可见,K的取值对于待分类项是一个关键问题

  • 如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;
  • 如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。
  • K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的累,模型过于简单,忽略了训练实例中大量有用信息。

贴上相关链接

K Nearest Neighbor 算法

5.SVM算法(支持向量机算法)

支持向量机算法应用领域十分广泛,图像分类,数据分类,统计回归等等,是十分经典的监督式学习算法
SVM算法的理解就不像之前的算法那么通俗易懂,详细讲解也需要较大篇幅的图解和公式,这里就简单介绍一下。涉及到的图片部分来自后面给的链接,不知道这种行为是否侵权,如有侵权,我会撤回。
最简单的SVM分类就是线性分类,如下图

这里写图片描述

这个图大家应该都不陌生,就是用一个线性方程将所有数据分为两类,当然这也是最简单的情况了,况且就算这样简单的情况下,线性方程也仍然不唯一,如下图

这里写图片描述

哪种分法最好呢??一般来说,能够与两个类别的界限越明晰,分类越好,怎么理解,如下图

这里写图片描述

蓝点和红点分别是两个类别中距离分类线最近的点,它们与分类线的距离越大,那么分类效果就越好,这几个点就是支持向量。这个原则也也成为Maximum Marginal(最大间距),是SVM的一个理论基础之一。
当然你一定也想到了,当所有的点并不能用一条线分类的时候怎么办,就如下面的图

这里写图片描述

左边的图明显不能用一条直线划分,这个时候,我们有两种选择

  1. 将数据从原来的线性空间投射到高维的空间里,并在高维的空间里进行超平面划分,如果还是不行,就向更高维空间投射(记得看过一本书说总能在某一个高维空间进行划分,不知道是否严谨),关于投射变换,就跟核函数有关系,核函数有很多种,这个详看链接
  2. 依旧使用线性划分,但是允许误差,这里面又会引入惩罚函数的概念,详看链接

关于SVM更多的理论基础和数学模型,还是需要大家更多的时间学习,下面贴上参考链接

机器学习中的算法(2)-支持向量机(SVM)基础
支持向量机SVM(一)

6.Decision Tree(决策树算法)

决策树在决策分析与风险评估等领域有十分广泛的应用,属于监督学习,它在一定程度上可以作为趋势探测。而且不同于贝叶斯分类中各特性必须独立的理论要求的严格,决策树更加贴近实际生活,所以也有较多的实际应用。
如下图是预测一个人是否拥有电脑的简单决策树模型:

这里写图片描述

这种图相信大家都一眼能够看懂,在建立这个树的时候,我们假设每个数据项都有属性“年龄”,“是否学生”,“信用等级”等特征属性,那么我们在建立树的时候,就需要考虑每到一个结点应该使用什么属性合适。这里就要引入三个概念,一个是“”,一个是“期望熵”,另一个是“信息增益”:

  • 熵:熵是接收的每条消息中包含的信息的平均量,信息论中,熵的计算方法是:这里写图片描述,其中这里写图片描述是指第i个类别在整个训练样本中的比例,具体的例子后面附上的链接会有
  • 期望熵:我们以属性A对训练样本进行划分,那么期望熵即为这里写图片描述,按照属性A,训练样本可以划分为v个类别。
  • 信息增益:两个概率分布相异度的一种度量,非对称的(来之维基百科),其定义这里写图片描述,对于分类来讲,信息增益越大分类效果越好,决策树也就越简洁。就比如两个分类,我们以天气来决策是否出去:1.不下雨就出去,下雨就不出去。2.不下雨可能出去可能不出去,不下雨就不出去。那么分类1就会比分类2的效果好一点,对于天气这个属性来说,分类1的信息增益也会比分类2的信息增益大。

由上面我们可以知道,在每次选择属性作为决策结点时,我们通常选择当前信息增益最大的属性。这也是数据挖掘领域经典的ID3算法。
ID3算法的一个缺陷就是偏向于选择取值多的属性。为了解决这个问题,又引入了C4.5算法,其基于ID3算法做了部分改进,其中最主要的一条就是将信息增益换做了增益率来选择属性作为决策结点,这个在后面附上的链接里面也会有所说明。
另外,决策树模型在应用的时候,也常和启发式方法结合,可以达到优化的效果。

算法杂货铺——分类算法之决策树(Decision tree)

7.EM算法(最大期望算法)

这个算法我曾经研究学习过,就详细讲解一下

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的潜变量(Latent Variable),在机器学习领域有很广泛的应用。提到最大期望算法,就不得不提一下最大似然估计(Maximum Likelihood Estimate)。
举一个栗子:假设有两个相同的箱子,甲箱中有99个白球1个黑球,乙箱中有99个黑球1个白球,那么我们随机从一个箱子中随机抽一个球,现在已知这个球是白色的,问这个球是从哪个箱子中取出??
对于这样的问题,人们的第一印象就是:“这个球最像是从甲箱取出”,这符合人们的经验事实。这里面的“最像”就是“最大似然”的意思,这种想法也被称为“最大似然原理”。
那么什么是参数最大似然估计呢?官方的定义较为晦涩,我就以自己的理解描述一遍:

  • 假设总体的概率函数为这里写图片描述,其中这里写图片描述一个未知参数或者几个未知参数组成的参数向量,为参数空间,这里写图片描述为该总体的测试得到的样本。
  • 最大似然函数:这里写图片描述,这也是样本的这里写图片描述联合概率函数(注意:里面的这里写图片描述不是变量,这是已知的样本,这里面写上只是因为它们与函数相关。函数中的变量应当是未知参数这里写图片描述
  • 若存在这里写图片描述满足使得其最大似然函数这里写图片描述值最大,那么这里写图片描述即是对未知参数这里写图片描述最大似然估计(MLE)。

通俗一点说就是,最大似然估计解决的就是这样一个问题:一个随机变量的的概率函数中存在未知参数,但是我们通过实验能够获得该随机变量的实验样本,现在就是根据实验样本估计这些未知参数的值
我们也知道,根据实验样本我们并不能肯定未知参数的值,但是我们可以估计,估计的标准就是:估计得到的未知参数值可以使得实验样本发生的概率最大。所以原问题就转换成求最大似然函数值最大时的未知参数的值,也就是使得试验样本发生的概率最大。
关于已知函数求参数极值问题,这就是一般数学领域的问题了,常用的方法就是求导数,取极值。最大似然估计可能不存在,也可能不唯一。另外在求函数极值是参数值过程中也有很多技巧,因为我们并不需要求出最大值具体是多少,只需要保证值最大即可,所以对函数取对数等方法在求最大似然估计中特别常用。

MLE是参数估计非常有效的参数估计算法,但是当有多余参数或者数据缺失时,就比如可观察的参数不足,MLE的求取会变得十分繁杂困难,这时就引入了EM算法(最大期望算法)。EM算法就更为晦涩了,我在这里尽量讲清楚。

  • 假设我们通过试验样本观测到的相关参数是y,y可能是一个参数或者是参数向量,未知参数仍是θ,它是一个未知参数或者一个未知参数向量,我们一样可以求得最大似然函数这里写图片描述,这个时候我们可能会发现这里写图片描述很难进行极值约束,由于可观察的参数有限
  • 这时候我们尝试引入变量z,z可能是一个参数也可能是一个参数向量,它协助参数y使得最大似然函数得以约化。
    有的同学可能会问,既然没有观察参数z,那我们设计实验观测参数z不就行了么??这是因为z是不可观测的,是我们人为引入假设的,我们也把它叫做潜变量(latent variable),这也是潜变量有意思的地方。另外,我们也需要推导出潜变量的概率函数(可以含有未知参数),后面能用到。
    这时候我们观察到的数据y被称为不完全数据,因为它不能单独产生意义。数据(y,z)被称为完全数据,这时候的最大似然函数即为这里写图片描述,可得到不那么复杂的函数。
  • 现在就到了EM算法的E步了,即求期望。这一步的主要目的,是将引入的变量z给消除掉。在数据y已知,同时我们假设第i步迭代得到估计值θi已知条件下
    (后面我们知道θ值是通过一步步迭代最后收敛得到的,所以我们假设这是第i步迭代得到的值,但是θ此时仍然是函数的参数变量,注意区分后面出现的θθiθi+1,现在不知道为什么没有关系,等看完后就能明白了)
    求基于完全函数(y,z)的似然函数对数的期望函数(对数是为了计算方便,常用的手段),这一步就可以把引入的变量z给消除掉。
  • 得到期望函数Q(θ;y,θi)=EzL(θ;y,z),这个时候得到期望函数,是关于yθiθ的函数,但是数据y是已知,并且θi一直是被当做已知量看待的(一定要想懂这里,很重要),所以函数中的未知量还是只有θ
  • M步:θiθi+1的递推式。由于变量y已知,我们通过求期望函数的最大值,可以消去θ,这也还是求极值约束问题,求法不唯一,关于θ求导是较为常见的方法。这个时候,期望函数值最大时对应θ的表达式就是求得的θi+1表达式。(不知道现在大家有没有懂θθiθi+1之间的关系与区别,我之所以强调这个,是因为我在这个地方懵逼了很久)
    举一个最简单的例子,假设上面得到的期望函数是Q(θ;y,θi)=yθiθ2+3θ(仅限本例子,不一定准确),那么我们求极值时最简便的方法就是求导,得到这里写图片描述,所以我们得到递推式这里写图片描述
  • 任取一个初值θ0,如0.5,1,1.1等等都行,通过上述递推式,算出一个个值,直到最后θi+1收敛,这就是我们估计得到的θ值。在很一般的情况下,EM算法最终结果是收敛的。上面举的函数不收敛,因为是我瞎编的。

总结:当已知最大似然函数繁杂难解的时候,通过引入潜变量使得最大似然函数变得方便可解。再求该最大似然函数的期望并消除引入的潜变量,再通过求期望函数的最大值来得到未知参数的递推式,最后随便代入初值,通过迭代计算直到收敛得到参数估计。而这个估计的参数值使得样本联合发生的期望最大,这就是最大期望算法。

公式和字全是自己手敲的,一定要有人看啊,手好累。

补充:今天看了两篇关于EM算法的博客,讲得确实精深,顿时觉得自己实在是才疏学浅,学到的只是皮毛,还要好好打牢基础 ,这里贴上两个博客链接:

从最大似然到EM算法浅解

(EM算法)The EM Algorithm

8.AdaBoost算法

Adaboost算法是boost算法中最为经典的算法了,也是分类效果很好的监督式学习算法。“boost”顾名思义就是“提升”的意思,将弱分类器提升为强分类器,它的核心思想先针对同一训练集训练出一定量的弱分类器,然后将这些弱分类器集合成一个强分类器。
下图是Adaboost算法的官方说明:

这里写图片描述

y1...yn是n个弱分类器,通过一定方式合并可以得到强分类器YM,当然每个弱分类器的贡献度不同。一般来说,越到后面的弱分类器贡献度应该越高。
为什么呢?举个例子,y2的获得与y1参与有关,我们在训练某个弱分类器的时候,对于它之前的弱分类器训练错误的数据,我们将加大他们的权重,着重训练。而对于训练正确的数据,我们就会减小权重。也就是说,后面训练成的分类器,一定程度上“学习了它之前的分类器”,这又是adaboost的另一个理论基础
关于Adaboost算法中涉及到的数学模型与公式,后面的链接会提供

AdaBoost–从原理到实现

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

9.PageRank算法

PageRank算法被广泛应用于信息检索等领域,这和TF-IDF算法一样,但是他们之间又有本质的区别,这也是为什么我把他们俩放在一起描述。
PageRank是用来对网页进行排序的,我们在使用搜索引擎的时候,会先输入搜索语句,通常会检索出成千上万个结果,每一个结果都对应一个网页,我们自然是不可能打开每个网页查看。这个时候,这些检索出来的网页排序就显得即为重要,因为按照一般人习惯,最多只会点进排名靠几个或者十几个网页。如果你排名靠前的网页内容不相关或质量较差,会极大地影响用户体验。
PageRank中的“Page”并不是网页的意思,而是这个算法创始人的名字佩奇,也是谷歌创始人之一。这个算法使得当时的谷歌从众多的搜索引擎中脱颖而出,成为它的制胜法宝。直到现在,这个算法通过不断改进,也成为各大搜索引擎核心理论基础。
在这个算法出现之前,TF-IDF算法为通用的算法,通过关键字出现频率等对网页进行排序,导致很多网页开发商为了浏览量大量刷新热点词等。导致检索出来的网页质量都较差。
PangRank算法的核心思想就是一种自动投票机制,与学术引用机制相仿,一篇论文被别的论文引用次数越多,说明这个论文质量越高,越权威。相似的,一个网页被链接得越多,说明这个网页越加被其他网页信任,他的质量就会更高。如果它也是被检索出的网页之一,那么在排序时,这个网页就能获得较高权重,很有可能排在前面。
所以每个网页都会有一个PR值,分值从1到10。而且分值间的差距并不是线性的,5到6之间的差距可能是4到5之间差距的5、6倍。每个网页会对它链接的网页贡献PR值,它链接的网页越多,那么它向每个网页贡献的PR值就会越小,可以有效防止刷链接的现象。这样所有网页就会组成一个网络,每个网页为一个结点,需要定时的更新每个网页的PR值。
这是Pagerank的核心思想,但是仍然有很多缺陷,比如新加入的网页很容易受到忽略,排名靠前网页可能内容不够相关等等。所以实际应用的算法应该复杂得多。
这个链接里有各个缺陷的应对方案

浅析PageRank算法

10.TF-IDF算法

TF-IDF算法的思想也很简单,它被广泛应用于关键字搜索,它的作用就是通过统计的方法给每个关键字赋予权值。
举一个例子:每个人的身份证号可以唯一标记一个人的身份,但是我们仔细观察可以发现,很多人身份证的前6位是一样的,那么这六位对于识别人就没有那么大的贡献,而后面的12位基本很难出现相同,那么这12位对于标记一个人信息就会有较大的贡献度。那么我们怎么确定一个关键词额贡献度呢?
TF-IDF的全名是term frequency–inverse document frequency,翻译过来也就是词频-逆文档频率,下面我们就词频和逆文档频率分别讲解TF-IDF算法:

  • TF(词频):若一个关键词在一个文档中大量出现,那么这个关键词极有可能标识着这个文档的内容,所以一个关键词对标记一个文档的贡献度与其在该文档中出现的频率正相关。
  • IDF(逆文档频率):很容易想到,一些能够在文档中大量出现的词不一定具有代表性。如,“的”“与”这些词大量使用但是对标记文档并没有太大的贡献。所以如果一个关键词在所有文档中都高频出现,那么我们就需要大大减小它的贡献度。

一句话说,TF-IDF与一个词在文档中的出现次数成正相关,与该词在整个文档中的出现次数成负相关
TF-IDF算法常用于提取关键词,也可以和余弦相似原理结合来判断两个文件的相似度。实际上,TF-IDF算法也常和K-Means算法结合,来给每个类心赋予权值。类似问题,TF-IDF算法均可应用,不仅仅局限于关键词搜索领域。

TF-IDF与余弦相似性的应用(一):自动提取关键词

TF-IDF与余弦相似性的应用(二):找出相似文章

参考文献:

  • 算法杂货铺——k均值聚类(K-means)
  • web挖掘之Apriori算法 JAVA实现
  • 算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
  • 机器学习中的算法(2)-支持向量机(SVM)基础
  • 支持向量机SVM(一)
  • 从最大似然到EM算法浅解
  • (EM算法)The EM Algorithm
  • AdaBoost–从原理到实现
  • 机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting
  • 浅析PageRank算法
  • TF-IDF与余弦相似性的应用(一):自动提取关键词
  • TF-IDF与余弦相似性的应用(二):找出相似文章
  • https://en.wikipedia.org/wiki/Tf%E2%80%93idf
  • https://en.wikipedia.org/wiki/Entropy
  • https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
2 0