斯坦福机器学习公开课（3）

来源：互联网发布：网络端游排行榜2015 编辑：程序博客网时间：2024/05/18 09:06

1、参数学习算法和非参数学习算法

参数学习算法：是一类有固定数目参数的以用来进行数据拟合的算法。

非参数学习算法：它是一个参数数量会随着训练集大小m增长的算法。

2、局部加权回归（Local Weight Regression）:

局部加权回归主要是选择一个θ来拟合目标函数：

∑mi=1ωi(y(i)−θx(i))

其中ωi=exp((x−x(i))22τ2)

if |x−x(i)|≈0，ωi≈1

if |x−x(i)|≈∞，ωi≈0

其中τ为波长因子。若τ很小，则ωi
的值会下降的非常快；若τ很大，则ωi
的值下降速度会很慢。

3、为什么选择最小二乘法做损失函数

假定y(i)=θTx(i)+ϵ(i)

其中ϵ(i)为误差，它可能是由于我们在训练数据时漏掉了一部分数据的特征，或者是一些随机噪声造成的。其中假设ϵ(i)−N(0,σ2).

则P(y(i)|x(i);θ)=1(√2π)σexp(−(y(i)−hθ(x(i)))22σ2)

则y(i)|x(i)|θ−N(θTxi,σ2)

为什么假设误差服从高斯分布呢？

中心极限定律：许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的（如买家、卖家的情绪、我们没有考虑到的其他特征），如果这些效应是独立的，那么根据中心极限定理这些效应的和服从高斯分布。一方面，这个假设是合理准确的；另一方面，这有利于后续的数学计算。

在这里我们遵从频率学派的观点，认为θ是一个固有的值，它并不是一个随机变量，虽然我们不能确定θ的值到底是多少。
我们假设ϵ(i)是独立同分布的。
根据最大似然定理

L(θ)=P(y⃗ |X;θ)=∏mi=1P(y(i)|x(i);θ)=∏mi=112π√σexp(−(y(i)−θTx(i))22σ2)

l(θ)=logL(θ)=mlog1(√2π)σ+∑mi=1−(y(i)−θTx(i))22σ2

其中若使得l(θ)越大，则应使得上式中的第二项越小。即得到J(θ)=min(y(i)−θTx(i))22.

4、逻辑回归（Logistic Regression）:

令P(y=1|x;θ)=hθ(x)=11+exp(−θTx)

则P(y=0|x;θ)=1−hθ(x)

则P(y|x;θ)=hθ(x)y(1−hθ(x))(1−y)

则利用最大似然函数：

l(θ)=logL(θ)=∑mi=1y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))

利用梯度上升法，可求得θ：

θ=θ+α▽θl(θ)
θj=θj+α∑mi=1(y(i)−hθ(x(i))xij

5、中心极限定理

5.1、独立同分布的中心极限定理

设随机变量X1,X2,...,Xn相互独立，服从同一分布，且其方差和期望分别为：E(Xk)=μ,D(Xk)=σ2(k=1,2,...,n)，则随机变量之和∑nk=1Xk的标准变量:

Yn=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−nμn√σ

的分布函数Fn(x)对任意x满足：

limn→∞Fn(x)=limn→∞P{Yn≤x}=∫x−∞12√πexp(−t22)dt

这就是说，均值为μ，方差为σ2的随机变量X1,X2,...,Xn之和的标准变量，当n足够大时，有

∑nk=1Xk−nμn√σ−N(0,1)。

5.2、李雅普诺夫定理

设随机变量X1,X2,...,Xn相互独立，它们具有数学期望和方差：

E(Xk)=μk,D(Xk)=σ2k,k=1,2,...,n

记B2n=∑nk=1σ2k，若存在正数δ，使得当n→∞时，

1B2+δ∑nk=1E{|Xi−μk|2+δ}→0

则随机变量∑nk=1Xk的标准化变量：

Zk=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−∑nk=1μkBn

的分布函数Fn(x)对任意x，满足：

limn→∞Fn(x)=limn→∞P(Zk<x)=∫x−∞12π√exp(−t22)dt

在很多问题中，所考虑的随机变量可以表示为多个独立的随机变量之和，例如，在某一时刻，一个城市的的耗电量是大量用户的耗电量总和；在物理实验中，实验的误差是由许多看到的和看不到的微小误差所合成，它们往往近似服从正态分布。

5.3 棣莫弗-拉普拉斯定理

设随机变量ηn(n=1,2,...)服从参数为n,p(0<p<1)的二项分布，则对任意x，有：

limn→∞P(ηn−npnp(1−p)√≤x)=∫x−∞12π√exp(−t22)dt.

阅读全文

0 0