斯坦福机器学习公开课（4）

来源：互联网发布：大屏幕电子书知乎编辑：程序博客网时间：2024/05/20 18:19

1、最速下降法和牛顿法

1.1 最速下降法

计算步骤如下：

（1）给定初始点x(1)∈R(n)，允许误差ϵ>0，置k=1；

（2）计算搜索方向d(k)=−▽f(x(k))；

（3）若||d(k)||≤ϵ，则停止计算；否则，从x(k)沿d(k)进行一维搜索，求λk，使得

f(x(k)+λkd(k))=min(f(x(k)+λd(k)))

其中保证所求的λk≥0；

（4）置x(k+1)=x(k)+λkd(k)，置k=k+1，转到步骤（2）。

1.2 牛顿法

设f(x)是二次可微实函数，又设x(k)是f(x)的极小值的一个估计，f(x)在x(k)的二阶泰勒展开式为：

f(x)≈f(x(k))+▽f(x(k))T(x−x(k))+12(x−x(k))T▽2f(x(k))(x−x(k))

对上式求导得：
▽f(x(k))+▽2f(x(k))(x−x(k))=0

设▽2f(x(k))可逆，得到牛顿法的迭代公式：

x(k+1)=x(k)−▽f(x(k))▽2f(x(k)).

当牛顿法收敛时，有下列关系：||x(k+1)−x⎯⎯||≤c||x(k)−x⎯⎯||2，因而其具有二次收敛性。

对于二次凸函数，牛顿法经过有限次迭代必定能达到极小值，这种性质称为二次终止性。

2、广义线性分布

广义高斯模型是基于指数分布族的，指数分布族的原型如下：
P(y;η)=b(y)exp(ηTT(y)−a(η))

其中η为自然参数，它可能是一个向量，而T(y)叫做充分统计量，它也可能是一个向量，通常T(y)=y。

2.1 伯努利分布

概率分布为：P(y=1|x)=ϕ

则

P(y|x)=ϕy(1−ϕ)(1−y)=exp[ylogϕ+(1−y)log(1−ϕ)]=exp[ylog(ϕ1−ϕ)+log(1−ϕ)]

其中η=log(ϕ1−ϕ)，求得ϕ=11+exp(−η)。若g(η)=11+exp(−η)，那么g(η)为正则响应函数，g(η)−1为正则关联函数。

2.2 高斯分布

概率密度函数为：p(y|x)=1(√2π)σexp(−(y−μ)22σ2)

则

p(y|x)=1(√2π)σexp(−(y−μ)22σ2)=1(√2π)σexp(−(y2+μ2−2yμ)2σ2)=1(√2π)σexp(−y22σ2)exp(2yμ2σ2−μ22σ2)

2.3 广义线性回归的三个假设

（1）y|x;θ服从参数为η的指数族分布；

（2）给定x后，我们希望的输出为：h(x)=E(T(y)|x);

（3）η=θTx[ηi=θTix].

2.3.1 伯努利分布

伯努利分布满足广义线性回归的三个假设，其中h(x)=ϕ=11+exp(−η)=11+exp(−θx)。

2.3.2 softmax回归

y∈1,2,...,k

参数：ϕ1,ϕ2,...,ϕk，其中P(y=i)=ϕi。其中ϕk=1−∑k−1i=1ϕi。

对于y∈1,2,...,k，

T(1)=[1,0,...,0]T，T(2)=[0,1,...,0]T，…，T(k−1)=[0,0,...,1]T，T(k)=[0,0,...,0]T。

令T(y)i=1{y==i}

P(y|x)=ϕ1{y=1}1ϕ1{y=2}2...ϕ1{y=k}k=ϕT(y)11ϕT(y)22...ϕ1−∑k−1i=1T(y)ik=exp{T(y)1logϕ1+T(y)1logϕ2]+...+[1−∑k−1i=1T(y)i]logϕk}=exp{[T(y)1,T(y)2],...,T(y)k−1]T.[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]+logϕk}

则η=[logϕ1ϕk,logϕ2ϕk,...,logϕk−1ϕk]T,a=−logϕk,b(y)=1.

则ϕi=exp(ηi)1+∑ki=1exp(ηi)=exp(θTix)1+∑ki=1exp(θTix).

则hθ(x)=[ϕ1,ϕ2,...,ϕk]T.

阅读全文

0 0