MLLT(最大似然线性变换)

来源:互联网 发布:php教程视频 百度云 编辑:程序博客网 时间:2024/05/23 17:34

主要目的是:在最大似然(ML)准则下使用一个线性变换矩阵对参数特征矢量进行解相关。

在ML准则下,评价一个模型‘好坏’的标准是训练数据与模型匹配的似然度,如果似然度越高的话,我们说这个模型越好。MLLT的作者给出了在最大似然准则下(ML)使用对角协方差矩阵的缺点,及其对训练数据集描述似然度的损失。

在原特征空间,建立模型,匹配训练数据,得到似然度P。考虑在特征空间做一个线性变换,yi=Axi,然后在新的特征空间进行建模、匹配,同样得到一个新的似然度Py。由于似然度分别在两个不同空间计算,所以不能直接相比,解决的办法有两个,一个是限制|A|=1,另一个办法就是将似然度变换回原空间的尺度:P(XN1,{μi}x,{Σi}x)=Py(yN1,{μi}y{Σi}y)Mi=1|A|Ni。这里,采用第一个限制来叙述,即采取限制|A|=1

为简单起见,采取单高斯模型来分析,在原特征空间,单高斯模型对训练数据的似然度为

P=a(N,d)exp(12N[(μ¯μ)TΣ1(μ¯μ)+Tr(Σ1Σ¯¯¯)+log|Σ|])(1)

这里,a(N,d)=(2π)Nd2。在ML准则下,估计出来的模型参数μΣ的估计值μˆΣˆ分别等于训练数据的样本均值μ¯和样本协方差Σ¯¯¯,代入等式(1)中得到

P(xN1)=g(n,d)|Σ¯¯¯|N2(2)

其中g(N,d)=(2πe)Nd2是个常数。从公式(1)我们可以看到,在ML准则下,模型与训练集的匹配似然度大小仅仅取决于样本协方差Σ¯¯¯

当对特征矢量做线性变换yi=Axi,可以求出μ¯y=Aμ¯Σ¯¯¯y=AΣ¯¯¯AT。可以计算出其似然值

P(xN1)=g(n,d)|AΣ¯¯¯AT|N2=|A|NP(xN1)(3)

由于采用了限制|A|=1,所以,做了线性变换之后,似然度并没有变化,从ML的角度来说,模型并没有被优化。
但是在实际应用中的高斯模型是受限的,即样本协方差矩阵被对角化了。也就是说ML的模型参数μΣ的估计值为μˆ=μ¯Σˆ=diag(Σ¯¯¯)。那么,式(3)的ML值就变成

Pdiag(xN1)=g(n,d)|diag(Σ¯¯¯)|N2(4)

由于有Hadamard不等式,对于对称的非负定的矩阵有|diag(Σ¯¯¯)||Σ¯¯¯|,所以有
P(xN1)Pdiag(xN1)

也就是似然度变小了,模型的精度下降了。

而作了线性变换之后,似然度为Pdiag(yN1)=g(n,d)|diag(Σ¯¯¯)|N2,可见,与式子(4)不同了,如果变换阵A能够使得样本协方差矩阵Σ¯¯¯尽可能对角化,减少取对角的损失,就可以使得P(xN1)Pdiag(xN1)。比如,A为样本协方差矩阵Σ¯¯¯的PCA变换阵,那么由于AΣ¯¯¯AT=ΛΛ是由Σ¯¯¯的特征值组成的对角阵,而且|Λ|=|Σ¯¯¯|,所以此时,

Pdiag(yN1)=P(xN1)Pdiag(xN1)(5)

从而使得新空间中,模型与训练集的似然度增加。

原创粉丝点击