深入浅出机器学习之生成模型，高斯判别

来源：互联网发布：淘宝购物券怎么设置编辑：程序博客网时间：2024/06/05 20:09

这一讲是一块单独的内容，和上一部分的回归不太一样，这块侧重用概率的方式来进行分类。

首先说一下判别学习和生成学习之间的区别，判别学习就是直接学习P（y| x）,通过一系列的运算得出来结果。例如，根据肿瘤的大小判断是良性还是恶性，输入肿瘤大小，就能映射出来结果。生成学习是建立两个模型，恶性的建一个，良性的建一个。分别带入这两个当中，得出来谁的概率更大一些，就是谁。应用的数学公式呢就这个

公式是概率论中的贝叶斯公式，不讲推导。也就是通过一种间接的方式来求。一般情况下P（x）为固定值，因此分子是主要的讨论对象。

高斯判别：

高斯判别其实是生成学习的一个例子。其中，我们讨论的是N维随机变量的分布。二维的高斯分布大家应该知道，在这里维数增加后，图像就变成了三维的了。

在这里不纠结参数，只是看一下形状即可。公式列一下，不过不用关心。其中μ决定中心位置，Σ决定投影椭圆的朝向和大小。

我们的方法是：对两个（这里先讨论Y取值为2种）分别建立上述的模型，但是模型的参数不太一样。大家看一下最后的效果图。

在图中可以看出来两个模型，它们的圆心不一样，但是形状是一样的，因此，两个模型的μ不一样，Σ一样。Y取值只有两个，那么服从伯努利分布。这样我们就得到了三个分布。

到这以后，我们应该做什么呢？首要任务是让这些点与我们的模型拟合，也就是说，把这些点放到我们的两个模型中。

在这要用极大似然估计了，因为极大似然估计代表着要让所有的点在我们的模型里最佳拟合。把点都带入到各自的模型里相乘吧。

然后要求这个公式最大化。步骤没有，直接出结果了：

用肿瘤的例子来说，第一个是代表了所有的例子中恶性肿瘤的比例。第二个变量代表了良性肿瘤的平均大小，第三个代表恶性肿瘤的平均大小。最后一个样本特征方差均值。

参数都有了，模型建立起来了。以后再来新的数据，就用两个模型判别，看看谁的概率大一些。

高斯判别和Logistc的关系：高斯判别比较特殊，logistic更加一般化。因为高斯判别仅仅对于这么一种的分布，logistic对于泊松分布等也有效。因此，如果明确知道是多元高斯分布，那么就直接用高斯判别。否则就用Logistic。

0 0