机器学习（Machine Learning）概念整理(PCA、概念学习、ID3算法、决策树算法)

来源：互联网发布：网络上网行为监控编辑：程序博客网时间：2024/05/22 11:53

机器学习的一些成功应用

（1）学习识别人类的讲话

所有最成功的语音识别系统都使用了某种形式的机器学习技术。例如，SPHINX系统可针对特定讲话着学习语音识别策略，从检测到的语音信号中识别出基本的因素（phoneme）和单词。神经网络学习方法（例如Waibel et al.1989）和隐马尔可夫模型（Hidden Markov Model）学习方法在语音识别系统中也非常有效。他们可以让系统哦自动适应不同的讲话者、词汇、麦克风特征和背景噪音等等。类似的技术在很多信号解释课题中也有应用潜力。

（2）学习驾驶车辆

机器学习方法已被用于训练计算机控制的车辆，使其在各种类型的道路上正确行驶。例如，ALVINN系统已经能利用它学会的策略独自在高速公路的其他车辆之间奔驰，以70英里的时速共行驶了90英里。类似的技术可能在很多基于传感器的控制问题中得到应用。

（3）学习分类新的天文结构

机器学习方法已经被用于从各种大规模的数据库中发现隐藏的一般规律。例如，决策树学习算法已经被美国国家航空和航天局（NASA）用来分类天体，这些天体来自第二帕洛马天文台的太空观察结果。这一系统现在被用于自动分类太空观察中的所有天体，其中包含了3T字节的图像数据。

（4）学习以世界级的水平对奕西洋双陆棋

最成功的博弈类计算机程序是基于机器学习算法的。例如，世界最好的西洋双陆棋程序是通过一百万次以上与自己对奕来学习其策略的，现在它的水平能与人类的世界冠军相比。类似的技术已经被应用于许多实际问题，在这些问题中，都需要高效地搜素庞大的搜素空间。

学习问题的标准描述

定义：如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善，那么我们称这个计算机程序在从经验E中学习，针对某类任务T，它的性能用P来衡量。
例如学习下西洋跳棋的计算机程序，它可以通过和自己下棋获取经验；它的任务是参与西洋跳棋对弈；它的性能用它赢棋的能力来衡量。通常，为了很好的定义一个学习问题，我们必须明确这样三个特征：任务的种类，衡量任务提高的标准，经验的来源。

西洋跳棋学习问题：
任务T：下西洋跳棋
性能标准P：比赛中击败对沙鸥的百分比
训练经验E：和自己进行对弈

手写识别学习问题：
任务T：识别和分类图像中的手写文字
性能标准P：分类的正确率
训练经验E：已知分类的手写文字数据库

1、PCA

主成分分析（ Principal Component Analysis ， PCA ）或者主元分析。是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值，形成一个 n ′ m 的数据矩阵， n 通常比较大。对于一个由多个变量描述的复杂事物，人们难以认识，那么是否可以抓住事物主要方面进行重点分析呢？如果事物的主要方面刚好体现在几个主要变量上，我们只需要将这几个变量分离出来，进行详细分析。但是，在一般情况下，并不能直接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面， PCA 就是这样一种分析方法。
PCA 主要用于数据降维，对于一系列例子的特征组成的多维向量，多维向量里的某些元素本身没有区分性，比如某个元素在所有的例子中都为1，或者与1差距不大，那么这个元素本身就没有区分性，用它做特征来区分，贡献会非常小。所以我们的目的是找那些变化大的元素，即方差大的那些维，而去除掉那些变化不大的维，从而使特征留下的都是“精品”，而且计算量也变小了。对于一个k维的特征来说，相当于它的每一维特征与其他维都是正交的（相当于在多维坐标系中，坐标轴都是垂直的），那么我们可以变化这些维的坐标系，从而使这个特征在某些维上方差大，而在某些维上方差很小。例如，一个45度倾斜的椭圆，在第一坐标系，如果按照x,y坐标来投影，这些点的x和y的属性很难用于区分他们，因为他们在x,y轴上坐标变化的方差都差不多，我们无法根据这个点的某个x属性来判断这个点是哪个，而如果将坐标轴旋转，以椭圆长轴为x轴，则椭圆在长轴上的分布比较长，方差大，而在短轴上的分布短，方差小，所以可以考虑只保留这些点的长轴属性，来区分椭圆上的点，这样，区分性比x,y轴的方法要好！
所以我们的做法就是求得一个k维特征的投影矩阵，这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交，特征向量都是正交的。通过求样本矩阵的协方差矩阵，然后求出协方差矩阵的特征向量，这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
举例：
对于一个训练集，100个对象模板，特征是10维，那么它可以建立一个100*10的矩阵，作为样本。求这个样本的协方差矩阵，得到一个10*10的协方差矩阵，然后求出这个协方差矩阵的特征值和特征向量，应该有10个特征值和特征向量，我们根据特征值的大小，取前四个特征值所对应的特征向量，构成一个10*4的矩阵，这个矩阵就是我们要求的特征矩阵，100*10的样本矩阵乘以这个10*4的特征矩阵，就得到了一个100*4的新的降维之后的样本矩阵，每个特征的维数下降了。
当给定一个测试的特征集之后，比如1*10维的特征，乘以上面得到的10*4的特征矩阵，便可以得到一个1*4的特征，用这个特征去分类。
所以做PCA实际上是求得这个投影矩阵，用高维的特征乘以这个投影矩阵，便可以将高维特征的维数下降到指定的维数。
PCA 的目标是寻找 r （ r<n ）个新变量，使它们反映事物的主要特征，压缩原有数据矩阵的规模。每个新变量是原有变量的线性组合，体现原有变量的综合效果，具有一定的实际含义。这 r 个新变量称为“主成分”，它们可以在很大程度上反映原来 n 个变量的影响，并且这些新变量是互不相关的，也是正交的。通过主成分分析，压缩数据空间，将多元数据的特征在低维空间里直观地表示出来。例如，将多个时间点、多个实验条件下的基因表达谱数据（ N 维）表示为 3维空间中的一个点，即将数据的维数从 RN 降到 R3 。
在进行基因表达数据分析时，一个重要问题是确定每个实验数据是否是独立的，如果每次实验数据之间不是独立的，则会影响基因表达数据分析结果的准确性。对于利用基因芯片所检测到的基因表达数据，如果用 PCA 方法进行分析，可以将各个基因作为变量，也可以将实验条件作为变量。当将基因作为变量时，通过分析确定一组“主要基因元素”，它们能够很好地说明基因的特征，解释实验现象；当将实验条件作为变量时，通过分析确定一组“主要实验因素”，它们能够很好地刻画实验条件的特征，解释基因的行为。下面着重考虑以实验条件作为变量的 PCA 分析方法。假设将数据的维数从 R N 降到 R 3 ，具体的 PCA 分析步骤如下：
(2) 第二步计算协方差矩阵S的本征向量e1,e2,…,eN的本征值, i = 1,2,…,N 。本征值按大到小排序：；
(3)第三步投影数据到本征矢张成的空间之中，这些本征矢相应的本征值为。数据可以在三维空间中展示为云状的点集。
对于 PCA ，确定新变量的个数 r 是一个两难的问题。我们的目标是减小 r ，如果 r 小，则数据的维数低，便于分析，同时也降低了噪声，但可能丢失一些有用的信息。究竟如何确定 r 呢？这需要进一步分析每个主元素对信息的贡献。
贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重，当取前 r 个主成分来代替原来全部变量时，累计贡献率的大小反应了这种取代的可靠性，累计贡献率越大，可靠性越大；反之，则可靠性越小。一般要求累计贡献率达到 70% 以上。
经过 PCA 分析，一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图，形象地表示和分析复杂问题。在分析基因表达数据时，可以针对基因作图，也可以针对实验条件作图。前者称为 Q 分析，后者称为 R 分析。

2、概念学习

概念学习就是学习把具有共同属性的事物集合在一起并冠以一个名称，把不具有此类属性的事物排除出去。影响概念学习的因素主要有：概念的定义性特征；原型；讲授概念的方式；概念间的联系；学生在年龄、性别、智力、动机、情绪、经验、民族、语言能力、价值观以及使用学习策略上的个体差异等自身的因素。
给定一样例集合以及每个样例是否属于某一概念的标注，怎样自动推出该概念的一般定义，这一问题被称为概念学习（concept learning），或称从样例中逼近布尔值函数。
定义：概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

3、ID3算法

ID3算法是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。
ID3算法最早是由罗斯昆（J. Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。
决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。
决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。

ID3算法：ID3算法是由Quinlan首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。以下是一些信息论的基本概念：
定义1：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为-Log2(1/n)
定义2：若有n个消息，其给定概率分布为P=(p1,p2…pn)，则由该分布传递的信息量称为P的熵，
定义3：若一个记录集合T根据类别属性的值被分成互相独立的类C1C2..Ck，则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p)，其中P为C1C2…Ck的概率分布，即P=(|C1|/|T|,…..|Ck|/|T|)
定义4：若我们先根据非类别属性X的值将T分成集合T1,T2…Tn，则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到，即Info(Ti)的加权平均值为： Info(X, T)=(i=1 to n 求和)((|Ti|/|T|)Info(Ti))
定义5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量，信息增益度公式为： Gain(X, T)=Info(T)-Info(X, T)
ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支据此划分样本.

数据描述

所使用的样本数据有一定的要求,ID3是:
描述-属性-值相同的属性必须描述每个例子和有固定数量的价值观。
预定义类-实例的属性必须已经定义的,也就是说,他们不是学习的ID3。
离散类-类必须是尖锐的鲜明。连续类分解成模糊范畴(如金属被“努力,很困难的,灵活的,温柔的,很软”都是不可信的。
足够的例子——因为归纳概括用于(即不可查明)必须选择足够多的测试用例来区分有效模式并消除特殊巧合因素的影响。
属性选择
ID3决定哪些属性如何是最好的。一个统计特性,被称为信息增益,使用熵得到给定属性衡量培训例子带入目标类分开。信息增益最高的信息(信息是最有益的分类)被选择。为了明确增益,我们首先从信息论借用一个定义，叫做熵。每个属性都有一个熵。

4、决策树学习

决策树算法：顾名思义，以二分类问题为例，即利用自变量构造一颗二叉树，将目标变量区分出来，所有决策树算法的关键点如下：
1.分裂属性的选择。即选择哪个自变量作为树叉，也就是在n个自变量中，优先选择哪个自变量进行分叉。而采用何种计算方式选择树叉，决定了决策树算法的类型，即ID3、c4.5、CART三种决策树算法选择树叉的方式是不一样的，后文详细描述。
2.树剪枝。即在构建树叉时，由于数据中的噪声和离群点，许多分支反映的是训练数据中的异常，而树剪枝则是处理这种过分拟合的数据问题，常用的剪枝方法为先剪枝和后剪枝。后文详细描述。
为了描述方便，本文采用评价电信服务保障中的满意度预警专题来解释决策树算法，即假如我家办了电信的宽带，有一天宽带不能上网了，于是我打电话给电信报修，然后电信派相关人员进行维修，修好以后电信的回访专员询问我对这次修理障碍的过程是否满意，我会给我对这次修理障碍给出相应评价，满意或者不满意。根据历史数据可以建立满意度预警模型，建模的目的就是为了预测哪些用户会给出不满意的评价。目标变量为二分类变量：满意（记为0）和不满意（记为1）。自变量为根据修理障碍过程产生的数据，如障碍类型、障碍原因、修障总时长、最近一个月发生故障的次数、最近一个月不满意次数等等。简单的数据如下：

客户ID 故障原因故障类型修障时长满意度 001 1 5 10.2 1 002 1 5 12 0 003 1 5 14 1 004 2 5 16 0 005 2 5 18 1 006 2 6 20 0 007 3 6 22 1 008 3 6 23 0 009 3 6 24 1 010 3 6 25 0

故障原因和故障类型都为离散型变量，数字代表原因ID和类型ID。修障时长为连续型变量，单位为小时。满意度中1为不满意、0为满意。
下面沿着分裂属性的选择和树剪枝两条主线，去描述三种决策树算法构造满意度预警模型：
分裂属性的选择：即该选择故障原因、故障类型、修障时长三个变量中的哪个作为决策树的第一个分支。 ID3算法是采用信息增益来选择树叉，c4.5算法采用增益率，CART算法采用Gini指标。此外离散型变量和连续型变量在计算信息增益、增益率、Gini指标时会有些区别。详细描述如下：

1.ID3算法的信息增益：
信息增益的思想来源于信息论的香农定理，ID3算法选择具有最高信息增益的自变量作为当前的树叉（树的分支），以满意度预警模型为例，模型有三个自变量：故障原因、故障类型、修障时长。分别计算三个自变量的信息增益，选取其中最大的信息增益作为树叉。信息增益=原信息需求-要按某个自变量划分所需要的信息。
如以自变量故障原因举例，故障原因的信息增益=原信息需求（即仅仅基于满意度类别比例的信息需求，记为a）-按照故障原因划分所需要的信息需求（记为a1）。
其中原信息需求a的计算方式为:

这里写图片描述

其中D为目标变量，此例中为满意度。m=2，即满意和不满意两种情况。Pi为满意度中属于分别属于满意和不满意的概率。此例中共计10条数据，满意5条，不满意5条。概率都为1/2。Info（满意度）即为仅仅基于满意和满意的类别比例进行划分所需要的信息需求，计算方式为：

这里写图片描述
按照故障原因划分所需要的信息需求（记为a1）可以表示为：

其中A表示目标变量D（即满意度）中按自变量A划分所需要的信息，即按故障类型进行划分所需要的信息。V表示在目标变量D（即满意度）中，按照自变量A（此处为故障原因）进行划分，即故障原因分别为1、2、3进行划分，将目标变量分别划分为3个子集，{D1、D2、D3}，因此V=3。即故障原因为1的划分中，有2个不满意和1个满意。D1即指2个不满意和1个满意。故障原因为2的划分中，有1个不满意和2个满意。D2即指1个不满意和2个满意。故障原因为3的划分中，有2个不满意和2个满意。D3即指2个不满意和2个满意。具体公式如下：

这里写图片描述

注：此处的计算结果即0.165不准确，没有真正去算，结果仅供参考。
因此变量故障原因的信息增益Gain(故障原因)=Info(满意度)- Info故障原因（满意度）=1-0.165=0.835
同样的道理，变量故障类型的信息增益计算方式如下：

=0.205（结果不准，为准确计算）
变量故障类型的信息增益Gain(故障类型)=1-0.205=0.795
故障原因和故障类型两个变量都是离散型变量，按上述方式即可求得信息增益，但修障时长为连续型变量，对于连续型变量该怎样计算信息增益呢？只需将连续型变量由小到大递增排序，取相邻两个值的中点作为分裂点，然后按照离散型变量计算信息增益的方法计算信息增益，取其中最大的信息增益作为最终的分裂点。如求修障时长的信息增益，首先将修障时长递增排序，即10.2、12、14、16、18、20、22、23、24、25,取相邻两个值的中点，如10.2和12，中点即为（10.2+12）/2=11.1,同理可得其他中点，分别为11.1、13、15、17、19、21、22.5、23.5、24.5。对每个中点都离散化成两个子集，如中点11.1，可以离散化为两个<=11.1和>11.1两个子集，然后按照离散型变量的信息增益计算方式计算其信息增益，如中点11.1的信息增益计算过程如下：

中点11.1的信息增益Gain(修障时长)=1-0.222=0.778
中点13的信息增益计算过程如下：

中点11.1的信息增益Gain(修障时长)=1-1=0
同理分别求得各个中点的信息增益，选取其中最大的信息增益作为分裂点，如取中点11.1。然后与故障原因和故障类型的信息增益相比较，取最大的信息增益作为第一个树叉的分支，此例中选取了故障原因作为第一个分叉。按照同样的方式继续构造树的分支。
总之，信息增益的直观解释为选取按某个自变量划分所需要的期望信息，该期望信息越小，划分的纯度越高。因为对于某个分类问题而言，Info(D)都是固定的，而信息增益Gain(A)=Info(D)-InfoA(D) 影响信息增益的关键因素为：-InfoA(D)，即按自变量A进行划分，所需要的期望信息越小，整体的信息增益越大，越能将分类变量区分出来。
2.C4.5算法的增益率：
由于信息增益选择分裂属性的方式会倾向于选择具有大量值的属性（即自变量），如对于客户ID，每个客户ID对应一个满意度，即按此变量划分每个划分都是纯的（即完全的划分，只有属于一个类别），客户ID的信息增益为最大值1。但这种按该自变量的每个值进行分类的方式是没有任何意义的。为了克服这一弊端，有人提出了采用增益率（GainRate）来选择分裂属性。计算方式如下：

其中Gain(A)的计算方式与ID3算法中的信息增益计算方式相同。
以故障原因为例：

=1.201
Gain(故障原因)=0.835（前文已求得）
GainRate故障原因（满意度）=1.201/0.835=1.438
同理可以求得其他自变量的增益率。
选取最大的信息增益率作为分裂属性。
3.CART算法的Gini指标：
CART算法选择分裂属性的方式是比较有意思的，首先计算不纯度，然后利用不纯度计算Gini指标。以满意度预警模型为例，计算自变量故障原因的Gini指标时，先按照故障原因可能的子集进行划分，即可以将故障原因具体划分为如下的子集：{1,2,3}、{1，2}、{1,3}、{2,3}、{1}、{2}、{3}、{}，共计8（2^V）个子集。由于{1,2,3}和{}对于分类来说没有任何意义，因此实际分为2^V-2共计6个有效子集。然后计算这6个有效子集的不纯度和Gini指标，选取最小的Gini指标作为分裂属性。
不纯度的计算方式为：

pi表示按某个变量划分中，目标变量不同类别的概率。某个自变量的Gini指标的计算方式如下：

对应到满意度模型中，A为自变量，即故障原因、故障类型、修障时长。D代表满意度，D1和D2分别为按变量A的子集所划分出的两个不同元组，如按子集{1,2}划分，D1即为故障原因属于{1,2}的满意度评价，共有6条数据，D2即故障原因不属于{1,2}的满意度评价，共有3条数据。计算子集{1,2}的不纯度时，即Gini（D1），在故障原因属于{1,2}的样本数据中，分别有3条不满意和3条满意的数据，因此不纯度为1-(3/6)^2-(3/6)^2=0.5。
以故障原因为例，计算过程如下：
                                                      ![这里写图片描述](http://img.blog.csdn.net/20150423110336179)                                                     =0.5 计算子集故障原因={1,3}的子集的Gini指标时，D1和D2分别为故障原因={1,3}的元组共计7条数据，故障原因不属于{1,3}的元组即故障原因为2的数据，共计3条数据。详细计算过程如下：
=0.52 同理可以计算出故障原因的每个子集的Gini指标，按同样的方式还可以计算故障类型和修障时长每个子集的Gini指标，选取其中最小的Gini指标作为树的分支。连续型变量的离散方式与信息增益中的离散方式相同。
树的剪枝：树剪枝可以分为先剪枝和后剪枝。
先剪枝：通过提前停止树的构造，如通过决定在给定的节点不再分裂或划分训练元组的子集，而对树剪枝，一旦停止，该节点即成为树叶。在构造树时，可以使用诸如统计显著性、信息增益等度量评估分裂的优劣，如果划分一个节点的元组低于预先定义阈值的分裂，则给定子集的进一步划分将停止。但选取一个适当的阈值是困难的，较高的阈值可能导致过分简化的树，而较低的阈值可能使得树的简化太少。
后剪枝：它由完全生长的树剪去子树，通过删除节点的分支，并用树叶替换它而剪掉给定节点的子树，树叶用被替换的子树中最频繁的类标记。
其中c4.5使用悲观剪枝方法，CART则为代价复杂度剪枝算法（后剪枝）。

后面的决策树学习算法参考决策树算法学习笔记

0 0