Gaussian discriminant analysis

来源：互联网发布：黄金现货数据编辑：程序博客网时间：2024/06/06 10:00

同朴素贝叶斯一样，高斯判别分析（Gaussian discriminant analysismodel, GDA）也是一种生成学习算法，在该模型中，我们假设y给定的情况下，x服从混合正态分布。通过训练确定参数，新样本通过已建立的模型计算出隶属不同类的概率，选取概率最大为样本所属的类。

一、混合正态分布（multivariate normal distribution）

混合正态分布也称混合高斯分布。该分布的期望和协方差为多元的：期望 $\mu\in R^{n}$ ,协方差 $\Sigma\in R^{n\times n}$ ，协方差具有对称性和正定性。混合高斯分布： $X\sim N(\mu,\Sigma)$ ，它的的概率密度函数为：

$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$

其中， $\mu$ 为混合高斯分布的期望 $E(X)$ ， $\Sigma$ 为其协方差 $Cov(X)$ ， $|\Sigma|$ 表示协方差的行列式。 $Cov(X)=E[(X-E(X))(X-E(X))^{T}]$

可以看出，随着期望的改变，图形在平面上平移，而其他特性保持不变。

二、高斯判别分析模型

如果特征值x是连续的随机变量，我们可以使用高斯判别分析模型完成特征值的分类。为了简化模型，假设特征值为二分类，分类结果服从0-1分布。（如果为多分类，分类结果就服从二项分布）

模型基于这样的假设：

$y\sim Bernoulli(\phi)$

$x|y=0 \sim N(\mu_0 , \Sigma)$

$x|y=1 \sim N(\mu_1 , \Sigma)$

他们的概率（密度）函数分别为：

$p(y)=\phi^{y}(1-\phi)^{1-y}$

$p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{0})^{T}\Sigma^{-1}(x-\mu_{0}))$

$p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{1})^{T}\Sigma^{-1}(x-\mu_{1}))$

模型的待估计参数为 $\phi,\Sigma,\mu_{0},\mu_{1}$ ，通常模型有两个不同的期望，而有一个相同的协方差。

该模型的极大似然对数方程为：

$l(\phi,\mu_{0},\mu_{1},\Sigma)$

$=log\prod_{i=1}^{m}{p(x^{(i)},y^{(i)};\phi,\mu_{0},\mu_{1},\Sigma)}$

$=log\prod_{i=1}^{m}{p(x^{(i)}|y^{(i)};\mu_{0},\mu_{1},\Sigma)p(y^{(i)};\phi)}$

求解该极大似然方程得：

$\phi=\frac{1}{m}\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}$

$\mu_{0}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=0\}}}$

$\mu_{1}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}}$

$\Sigma=\frac{1}{m}\sum_{i=1}^{m}{(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^{T}}$

在对 $\phi,\Sigma,\mu_{0},\mu_{1}$ 计算完成之后，将新的样本x带入进建立好的模型中，计算出 $p(y=1|x)$ 、 $p(y=0|x)$ ，选取概率更大的结果为正确的分类。

三、GDA和logistic回归

GDA模型和logistic回归模型存在这样有趣的关系：假如我们将 $p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)$ 视作关于x的函数，该函数可以表示成logistic回归形式：

$p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)=\frac{1}{1+exp(-\theta^{T}x)}$

其中， $\theta$ 可以用以 $\phi,\Sigma,\mu_{0},\mu_{1}$ 为变量的函数表示。

前文中已经提到，如果 $p(x|y)$ 为混合高斯分布，那么， $p(y|x)$ 就可以表示成logistic回归函数形式；相反，如果可表示成logistic回归函数形式，并不代表 $p(x|y)$ 服从混合高斯分布。这意味着GDA比logistic回归需要更加严格的模型假设，当然，如果混合高斯模型的假设是正确的，那么，GDA具有更高的拟合度。基于以上原因，在实践中使用logistic回归比使用GDA更普遍。

0 0