A Cookbook for Machine Learning: Vol 1

来源:互联网 发布:将数据保存到文件中 编辑:程序博客网 时间:2024/05/20 05:25

通常的情况是:你拥有某个模型参数θ。你试图优化某个客观标准,但是采用下面列的方式,优化问题不可行或者很难。如果你可以的话,那么你可以应用相应的转换到你的问题上。如果现在这个问题你可以有效的优化,那么很好。如果不能,你可以递归的应用这些转换直到它可以(优化)。

对于Vol1,我们首先陈述下面的问题转换:

变分边界(variational bound)
对抗博弈(Adversarial game)
进化策略(Evolution Strategy)
凸松弛法(convex relaxation)

变分边界:
典型问题:通常因为损失函数f(θ)涉及到很难处理的边缘化,因此它(损失函数)很难计算。我很难计算它,更别说最小化它了。
解决方案:
让我们构造一系列的通常可微的上界:

f(θ)infψg(θ,ψ)

并且求解优化问题:
θ,ψargminθ,ψg(θ,ψ)

从技术上讲,一旦你完成这个优化,那么可以抛弃辅助参数ψ,虽然这个辅助变量通常本身有意义和有用,并且通常是针对近似推断(例如VAE的识别模型)(有意义和有用的)
变换技巧:
Jensen’s 不等式:一个凸函数的均值永远不会低于均值对应的函数值。 Jensen不等式通常出现在下面的标准证据下界(ELBO)推导的一些变体中:
logp(x)=logp(x,y)dy=logq(y|x)p(y,x)q(y|x)dyq(y|x)logp(y,x)q(y|x)dy

重参数化技巧,在变分推断中,我们通常碰到下面形式的梯度:
θiExqθ[f(x,qθ(x))]

其中变量(x)的概率密度函数(pdf)在积分中。如果我们可以找到一个函数h:(E,Θ)X,它关于第二个参数是可微的,并且E上的概率分布pE很容易采样,那么下式成立:
x=h(ϵ,θ),ϵpϵxqθ,

我们可以使用下面(关于)积分的重新表示,这在变分上界中经常碰到:
θiExqθ[f(x,qθ(x))]=Eϵpϵ[θif(h(ϵ,θ),qϵ(h(ϵ,θ)))]

A Monte Carlo estimators to this expectation typically have substantially lower variance than REINFORCE estimators to the same quantity.

参考文献:
1.http://www.inference.vc/design-patterns/
2.http://www.sohu.com/a/205103359_465975

原创粉丝点击