深入浅出机器学习之生成模型,高斯判别

来源:互联网 发布:淘宝购物券怎么设置 编辑:程序博客网 时间:2024/06/05 20:09

        这一讲是一块单独的内容,和上一部分的回归不太一样,这块侧重用概率的方式来进行分类。

       首先说一下判别学习和生成学习之间的区别,判别学习就是直接学习P(y| x),通过一系列的运算得出来结果。例如,根据肿瘤的大小判断是良性还是恶性,输入肿瘤大小,就能映射出来结果。生成学习是建立两个模型,恶性的建一个,良性的建一个。分别带入这两个当中,得出来谁的概率更大一些,就是谁。应用的数学公式呢就这个

          公式是概率论中的贝叶斯公式,不讲推导。也就是通过一种间接的方式来求。一般情况下P(x)为固定值,因此分子是主要的讨论对象。

高斯判别:

高斯判别其实是生成学习的一个例子。其中,我们讨论的是N维随机变量的分布。二维的高斯分布大家应该知道,在这里维数增加后,图像就变成了三维的了。


在这里不纠结参数,只是看一下形状即可。公式列一下,不过不用关心。其中μ决定中心位置,Σ决定投影椭圆的朝向和大小。

   

        我们的方法是:对两个(这里先讨论Y取值为2种)分别建立上述的模型,但是模型的参数不太一样。大家看一下最后的效果图。



在图中可以看出来两个模型,它们的圆心不一样,但是形状是一样的,因此,两个模型的μ不一样,Σ一样。Y取值只有两个,那么服从伯努利分布。这样我们就得到了三个分布。


到这以后,我们应该做什么呢?首要任务是让这些点与我们的模型拟合,也就是说,把这些点放到我们的两个模型中。

在这要用极大似然估计了,因为极大似然估计代表着要让所有的点在我们的模型里最佳拟合。把点都带入到各自的模型里相乘吧。


然后要求这个公式最大化。步骤没有,直接出结果了:


用肿瘤的例子来说,第一个是代表了所有的例子中恶性肿瘤的比例。第二个变量代表了良性肿瘤的平均大小,第三个代表恶性肿瘤的平均大小。最后一个样本特征方差均值。

参数都有了,模型建立起来了。以后再来新的数据,就用两个模型判别,看看谁的概率大一些。


高斯判别和Logistc的关系:高斯判别比较特殊,logistic更加一般化。因为高斯判别仅仅对于这么一种的分布,logistic对于泊松分布等也有效。因此,如果明确知道是多元高斯分布,那么就直接用高斯判别。否则就用Logistic。

0 0
原创粉丝点击