斯坦福机器学习公开课(3)

来源:互联网 发布:网络端游排行榜2015 编辑:程序博客网 时间:2024/05/18 09:06

1、参数学习算法和非参数学习算法

参数学习算法:是一类有固定数目参数的以用来进行数据拟合的算法。

非参数学习算法:它是一个参数数量会随着训练集大小m增长的算法。

2、局部加权回归(Local Weight Regression):

局部加权回归主要是选择一个θ来拟合目标函数:

mi=1ωi(y(i)θx(i))

其中ωi=exp((xx(i))22τ2)

if |xx(i)|0ωi1

if |xx(i)|ωi0

其中τ为波长因子。若τ很小,则ωi
的值会下降的非常快;若τ很大,则ωi
的值下降速度会很慢。

3、为什么选择最小二乘法做损失函数

假定y(i)=θTx(i)+ϵ(i)

其中ϵ(i)为误差,它可能是由于我们在训练数据时漏掉了一部分数据的特征,或者是一些随机噪声造成的。其中假设ϵ(i)N(0,σ2).

P(y(i)|x(i);θ)=1(2π)σexp((y(i)hθ(x(i)))22σ2)

y(i)|x(i)|θN(θTxi,σ2)

为什么假设误差服从高斯分布呢?

中心极限定律:许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的(如买家、卖家的情绪、我们没有考虑到的其他特征),如果这些效应是独立的,那么根据中心极限定理这些效应的和服从高斯分布。一方面,这个假设是合理准确的;另一方面,这有利于后续的数学计算。

在这里我们遵从频率学派的观点,认为θ是一个固有的值,它并不是一个随机变量,虽然我们不能确定θ的值到底是多少。
我们假设ϵ(i)是独立同分布的。
根据最大似然定理

L(θ)=P(y⃗ |X;θ)=mi=1P(y(i)|x(i);θ)=mi=112πσexp((y(i)θTx(i))22σ2)

l(θ)=logL(θ)=mlog1(2π)σ+mi=1(y(i)θTx(i))22σ2

其中若使得l(θ)越大,则应使得上式中的第二项越小。即得到J(θ)=min(y(i)θTx(i))22.

4、逻辑回归(Logistic Regression):

P(y=1|x;θ)=hθ(x)=11+exp(θTx)

P(y=0|x;θ)=1hθ(x)

P(y|x;θ)=hθ(x)y(1hθ(x))(1y)

则利用最大似然函数:

l(θ)=logL(θ)=mi=1y(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))

利用梯度上升法,可求得θ

θ=θ+αθl(θ)
θj=θj+αmi=1(y(i)hθ(x(i))xij

5、中心极限定理

5.1、独立同分布的中心极限定理

设随机变量X1,X2,...,Xn相互独立,服从同一分布,且其方差和期望分别为:E(Xk)=μ,D(Xk)=σ2(k=1,2,...,n),则随机变量之和nk=1Xk的标准变量:

Yn=nk=1XkE(nk=1Xk)D(nk=1Xk)=nk=1Xknμnσ

的分布函数Fn(x)对任意x满足:

limnFn(x)=limnP{Ynx}=x12πexp(t22)dt

这就是说,均值为μ,方差为σ2的随机变量X1,X2,...,Xn之和的标准变量,当n足够大时,有

nk=1XknμnσN(0,1)

5.2、李雅普诺夫定理

设随机变量X1,X2,...,Xn相互独立,它们具有数学期望和方差:

E(Xk)=μk,D(Xk)=σ2k,k=1,2,...,n

B2n=nk=1σ2k,若存在正数δ,使得当n时,

1B2+δnk=1E{|Xiμk|2+δ}0

则随机变量nk=1Xk的标准化变量:

Zk=nk=1XkE(nk=1Xk)D(nk=1Xk)=nk=1Xknk=1μkBn

的分布函数Fn(x)对任意x,满足:

limnFn(x)=limnP(Zk<x)=x12πexp(t22)dt

在很多问题中,所考虑的随机变量可以表示为多个独立的随机变量之和,例如,在某一时刻,一个城市的的耗电量是大量用户的耗电量总和;在物理实验中,实验的误差是由许多看到的和看不到的微小误差所合成,它们往往近似服从正态分布。

5.3 棣莫弗-拉普拉斯定理

设随机变量ηn(n=1,2,...)服从参数为n,p(0<p<1)的二项分布,则对任意x,有:

limnP(ηnnpnp(1p)x)=x12πexp(t22)dt.