第二章:probability distribution

来源:互联网 发布:sql server bi 编辑:程序博客网 时间:2024/06/18 12:42

1: Density Estimation: given a finite set x1...xN of observations, find distribution p(x) of a random variable x.

2: Parametric Distribution: assume a specific functional form for the distribution which is governed by a small number of adaptive parameters, such as the mean and variance in the case of Gaussian.

1): Frequentist Treatment: to choose specific values for the parameters by optimizing some criterion, such as the likelihood function.
2): Bayesian Treatment: to firstly introduce prior distributions over the parameters and then use Bayes’ theorem to compute corresponding posterior distribution given the observed data.

3: Nonparametric Density Estimation Method: the form of the distribution typically depends on the size of the data set. Such models contain parameters, but these control the model complexity rather than the form of the distribution.

4: Conjugate Priors: lead to posterior distributions having the same functional form as the prior. 先验函数中的参数称为超参数(hyperparameter),其控制着假设变量x服从的密度分布中的参数。

Distribution Conjuage prior distribution Bernoulli Beta Multinomial Dirichlet univariate gaussian, given variance, unknown mean Gaussian univariate gaussian, given mean, unknown variance Gamma univariate gaussian, unknown mean, unknown variance gaussian-gamma multivariate gaussian, given precision, unknown mean Gaussian multivariate gussian, given mean, unkonwn precision Wishart multivariate gaussian, unknown mean, unknown precision normal-Wishart

2-1: Binary Variables:

1:假设单变量x只能取0和1这两个值,值为1的概率为u。则变量x对应的概率分布为Bern(x|u)=ux(1u)1x,这称为伯努利分布, E[x]=u,var[x]=u(1u)

2:用极大似然法求解上述分布中的参数u:
假设我们有一个变量x的观察值数据集,D={x1,x2...xN}。构造的似然函数为p(D|u)=Nn=1p(xn|u)=Nn=1uxn(1u)1xn。按照极大似然法,我们对该似然函数取对数,对参数u求导,得到uML=Nn=1xnN。如果我们以m代表x=1的观察次数,则按照极大似然法,从观察的数据集推出的参数u为m/N。

3:变量x=1的总次数m所服从的分布为Bin(m|N,u)=N!(Nm)!m!um(1u)NmE[m]=Nu,var[m]=Nu(1u)

4:参数u的先验分布:Beta(u|a,b)=Γ(a+b)Γ(a)Γ(b)ua1(1u)b1E[u]=aa+b,Var[u]=ab(a+b)2(a+b+1)。参数a和b称为hyperparameters,其控制着参数u的分布。

因此参数u的后验分布为p(u|m,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)um+a1(1u)l+b1(l=Nm).

后验分布与先验分布有着相同的形式的好处是当我们观察了下一个数据集D时,上一个数据集推出的后验分布能够被视为是下一个数据集的先验分布。这能够被应用于squential Bayesian inference, 也就是得到一个观察后,可以算出后验分布,由于后验分布与原来的先验分布有着相同的形式,因此这个后验分布能够作为新的先验分布,用于下一个观察的数据,如此迭代下去。对于数据流(stream of data)的情况,这种方式可以实现real-time learning。

2-2:multinomial variables

1:如果一个离散变量有k个可能态,我们可以用1-K scheme来表示,也就是这个离散变量可以用一个k维的矢量x⃗ 来表示。如果变量取第i个态,则矢量中xi为1,其它的为0。如果我们令xk为1的概率为uk,则x⃗ 的分布为p(x⃗ |u⃗ )=Kk=1ukxk,在这里u⃗ =(u1...uK)T,参数uk满足uk>=0并且kuk=1

2:假设在N次观察中,xk=1的次数为mk,则m1,m2...mk所服从的分布为Mult(m1,m2...,mk|u⃗ ,N)=N!m1!m2!...mk!Kk=1ukmk,其中Kk=1mk=N

3:参数u⃗ 的先验分布采取的形式为Dir(u⃗ |α⃗ )=Γ(α0)Γ(α1)...Γ(αK)Kk=1uαk1k

经过贝叶斯变换以及归一化后,参数u⃗ 所得到的后验分布p(u⃗ |D,α⃗ )=Γ(α0+N)Γ(α1+m1)...Γ(αK+mK)Kk=1ukαk+mk1

2-3:The Gaussian Distribution

1:单变量的高斯分布:N(x|u,σ2)=1(2πσ2)1/2exp{(xu)2(2σ2)}.
对于一个D维矢量x⃗ ,多变量高斯分布的形式为N(x⃗ |u⃗ ,Σ)=1(2π)D/21|Σ|1/2exp{12(x⃗ u⃗ )TΣ1(x⃗ u⃗ )},其中E[x⃗ ]=u⃗ ,cov[x⃗ ]=Σ

2:高斯分布的缺点:
(1):参数太多,计算复杂(协方差矩阵的独立参数个数与维度D的平方同一量级);
(2):由于高斯分布是单峰的,因此不能刻画多峰的密度分布。
因此一方面高斯函数由于有太多的参数,所以很灵活,但另一方面,它有应用局限性。

为了解决缺点(2),离散的latent变量被介绍从而引入高斯混合模型(gaussian mixture)去刻画多峰问题。为了解决缺点(1),连续的latent变量被介绍去构造模型使该模型的自由参数数目不依懒于空间的维度D,然后依然能够很好的刻画数据之间的主要关联。

3:给定一个联合高斯分布N(x⃗ |u⃗ ,Σ),Λ=Σ1,并且x⃗ =(x⃗ a,x⃗ b)T,u⃗ =(u⃗ a,u⃗ b)T

则条件分布p(x⃗ a|x⃗ b)=N(x⃗ |u⃗ a|b,Λ1aa),其中u⃗ a|b=u⃗ aΛ1aaΛab(x⃗ bu⃗ b)
边际分布p(x⃗ a)=N(x⃗ a|u⃗ a,Σaa)

4:假定x⃗ 的分布为p(x⃗ )=N(x⃗ |u⃗ ,Λ1)。并且还给定在x⃗ 一定的情况下,y⃗ 的条件分布为p(y⃗ |x⃗ )=N(y⃗ |Ax⃗ +b⃗ ,L1)(这是线性高斯模型的一个例子),则p(y⃗ )=N(y⃗ |Au⃗ +b⃗ ,L1+AΛ1AT), p(x⃗ |y⃗ )=N(x⃗ |ΣATL(y⃗ b⃗ )+Au⃗ ,Σ) where Σ=(Λ+ATLA)1

5: 给定一个数据集X=(x1,...,xn)T,并且假定观察结果xn是从多变量高斯分布中独立得到的。有了这个数据集,我们能够用极大似然法去推断多变量高斯函数中的参数。最终得到的结果是u⃗ ML=1NNn=1xn,ΣML=1NNn=1(x⃗ nu⃗ ML)(x⃗ nu⃗ ML)T

6:我们之前谈论过,当贝叶斯方法应用于sequential method时,我们在一次观察后算出后验分布,然后当处理下一次观察时,把上次得到的后验分布当做这一次的先验分布,以此类推。

当我们把极大似然法应用于sequential method时,假设我们有一个单变量的密度分布p(x|θ),在这里θ是密度分布的参数。应用Robbins-Monro算法,我们能够推出θN=θN1+aN1{θlnp(x|θ)/θ=θN1,x=xN}。 用这个公式即可sequentially求解极大似然问题,在这个公式中,θN1表示的是基于前N-1个观测得出的值,xN表示的是第N次的观测值,因子aN要满足limNaN=0,N=aN=,N=1a2N<这三个条件。

0 0
原创粉丝点击