分类

来源:互联网 发布:mac 备份系统 编辑:程序博客网 时间:2024/04/27 17:41

从概率的角度讲,以分类为例,机器学习的目的是从训练数据中学习并估计后验概率P(c|X),其中X表示训练数据集,c表示预测的类别。如果直接对P(c|X)的值进行估计,而不考虑训练数据所服从的分布,这种方法产生的模型为判别模型。从这个角度讲,线性判别模型(如logistics回归)、SVM、多层网络都属于判别模型。相反,如果对P(c|X)的值进行估计的过程中考虑了数据所服从的分布,如假设P(X)P(XY)或其他变量服从某种分布,那么将会得到生成模型,如贝叶斯分类模型。
对于生成模型来说,当假设了数据变量服从某种概率分布时,概率分布模型的学习过程变成了参数估计过程。

广义线性模型

一般线性回归

logistic回归

p(Y|X)X之间的关系建模。

朴素贝叶斯分类

朴素贝叶斯分类的主要思想是:对于待分类数据X=(x1,x2,...,xm),计算使后验概率p(Y=cj|X)最大的Y的取值,即为数据X所属的类别标签cj.
后验概率p(Y=cj|X)是通过贝叶斯公式计算的,如下

p(Y=cj|X)=p(X|Y=cj)p(Y=cj)jp(X|Y=cj)p(Y=cj)

其中,p(X|Y=cj)中每个数据X=(x1,x2,...,xm)包含m个特征,如果假设这些特征是在Y=cj条件下是相互独立的,那么p(X|Y=cj)=ip(xi|Y=cj),这也是朴素贝叶斯之所以朴素的地方,即在已知分类类别的情况下,假设各个特征之间是条件独立的。

最大熵分类

最大熵分类的原理是对于待分类数据X,求输出类别Y所服从的分布,根据该分布自然可以得到X所属类别。该分布满足的条件是使p(Y|X)的条件熵最大。通常,对给定X时,Y服从的分布有一定的限制,这些限制作为问题求解的约束条件。所以最大熵模型为求解如下带约束条件的最大条件熵问题:

这里写图片描述

上述可以根据拉格朗日对偶性转化为极大极小问题。

最大熵模型与Logistics模型
两者均属于对数线性模型,一般使用极大似然估计学习模型中的参数。两者也均可形式化为无约束最优化问题,从而使用梯度下降、牛顿法等求解。
最大熵模型是多分类的Logistics模型。详见这里
最大熵分类与朴素贝叶斯分类
都是求给定输入X的情况下,求其类别Y所服从的分布。

参考

最大熵模型
1.http://www.cs.cmu.edu/afs/cs/user/aberger/www/html/tutorial/tutorial.html
最大熵模型与Logistics 模型的关系
1. https://www.quora.com/What-is-the-relationship-between-Log-Linear-model-MaxEnt-model-and-Logistic-Regression#
2. Mount J. The equivalence of logistic regression and maximum entropy models[J]. URL: http://www. win-vector. com/dfiles/LogisticRegressionMaxEnt. pdf, 2011.
3. http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

0 0
原创粉丝点击