UFLDL Tutorial学习笔记（一）Linear&Logistic&Softmax Regression

来源：互联网发布：芒果tv2016旧版 mac 编辑：程序博客网时间：2024/05/17 03:59

学习资料：UFLDL Tutorial http://ufldl.stanford.edu/tutorial/

Linear Regression

问题：给定带标签的训练数据集T:{(x(i),y(i))|i=1,...,m}，其中x(i)∈Rn，y(i)∈R，学习x与y之间的关系函数，使得对任一输入x能预测其对应的输出y

模型Structural Model：采用线性函数

y = h θ (x) = Σ n i = 1 θ i x i = θ T x

1. 通常会在模型中加入偏置项，即

y = h θ (x) = θ T x + b

令

x \to [1 x] θ \to [b θ]

即可统一成向量形式

θTx。该模型称为仿射模型，与线性函数的区别在于直线不经过原点。
2. 该线性模型的一种变形为多项式模型，即

y = h θ (x) = b + θ T 1 x + θ T 2 x 2 + . . . + θ T k x k

这里可把输入看作

x \to ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 1 x x 2 ⋮ x k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

优化问题Error Model：采用最小均方误差准则，即寻找使得按误差平方和定义的损失函数

J(θ)最小的

min θ J (θ) = 1 2 Σ m i = 1 (h θ (x (i)) - y (i)) 2 = 1 2 Σ m i = 1 (θ T x (i) - y (i)) 2

写成向量形式，为

X = [x (1) x (2) \dots x (m)] Y = [y (1) y (2) \dots y (m)] J (θ) = 1 2 (θ T X - Y) (θ T X - Y) T

优化算法Optimization Procedure：梯度下降法

▽ θ J (θ) = Σ m i = 1 x (i) (θ T x (i) - y (i)) = X (θ T X - Y) T

令

▽θJ(θ)=0，可解得

θ = (X X T) - 1 X Y T

注意到该式需要对一个高维的矩阵求逆，因此我们通常转而采取递推求解算法。根据递推时所用的样本数量，可分为以下三种算法：

严格递推算法——每次使用全部样本数据
$θ \to θ + α {- Σ m i = 1 x (i) (θ T x (i) - y (i))}$ 用这种方法可以求得严格的最佳解，而且避开了矩阵求逆的困难，但学习过程中的每一步仍需要完成大量计算。
随机递推算法——每次使用一个样本数据
$θ \to θ + α {- x (i) (θ T x (i) - y (i))}$ 与严格递推算法的区别在于：用单个样本计算梯度，因此避免了大量计算，但同时也给权向量的变化趋势带来随机性。研究表明，将步幅系数α变成一个随时序k变化的量，当α(k)满足一定条件时，学习一定是收敛的。
具有一定统计特性的递推算法——每次使用部分样本数据（P个）
$θ \to θ + α {- Σ P i = 1 x (i) (θ T x (i) - y (i))}$ 当P较大时，与严格递推算法一致；当P=1时，与随机递推算法一致。

上述模型在其他地方也可看到：

神经网络中的Adaline（Adaptive Linear Element，自适应线性单元）：通过一个采用线性激活函数的单个神经元，实现两类线性可分问题
信号处理中的自适应滤波：通过一个简单的线性神经元来设计未知动态系统的一个多输入单输出模型

问题：给定带标签的训练数据集T:{(x(i),y(i))|i=1,...,m}，其中x(i)∈Rn，y(i)∈{0,1}，通过学习使得对任一输入x能预测其对应的类别y，即解决二分类问题

模型Structural Model：采用概率模型

P (y = 1 | x) = h θ (x) = 1 1 + exp ( - θ T x ) \equiv σ (θ T x) P (y = 0 | x) = 1 - P (y = 1 | x) = 1 - h θ (x)

则

y = {1, 0, if P(y=1|x)>P(y=0|x) else

上式中

σ(⋅)为sigmoid函数，将输入

θTx压缩至

[0,1]区间，使得

hθ(x)具有概率意义。

优化问题Error Model：采用最大似然准则，首先将上述概率模型统一写成

P (y | x) = h θ (x) y (1 - h θ (x)) 1 - y

对训练数据集，似然函数为

L (θ) = Σ m i = 1 P (y (i) | x (i)) = Σ m i = 1 h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)

对数似然函数为

l (θ) = log L (θ) = Σ m i = 1 {y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))}

因此，优化问题为

min θ J (θ) = - l (θ) = - Σ m i = 1 {y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))}

优化算法Optimization Procedure：梯度下降法

▽ θ J (θ) = Σ m i = 1 x (i) (h θ (x (i)) - y (i))

其形式与线性回归梯度的计算式一致。

问题：在Logistic Regression的基础上，将二分类问题推广为多分类问题，即此时y∈{1,2,...,K}

模型Structural Model：采用概率模型

h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ P (y = 1 | x; θ) P (y = 2 | x; θ) ⋮ P (y = K | x; θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 Σ K j = 1 exp ( θ ( j ) T x ) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ exp (θ (1) T x) exp (θ (2) T x) ⋮ exp (θ (K) T x) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

则

y = a r g max j P (y = j | x; θ)

模型参数

θ为

θ = [θ (1) θ (2) \dots θ (K)]

优化问题Error Model：采用最大似然准则

min θ J (θ) = - Σ m i = 1 Σ K k = 1 1 {y (i) = k} log exp ( θ ( k ) T x ) Σ K j = 1 exp ( θ ( j ) T x )

优化算法Optimization Procedure：梯度下降法

▽ θ (k) J (θ) = - Σ m i = 1 x (i) (1 {y (i) = k} - P (y (i) = k | x (i); θ))

讨论：

参数冗余问题：由于概率模型经过归一化处理，K组模型参数中有一组是多余的。如将每组参数减去某一常数向量ψ后，模型并不发生改变，即 $P (y (i) = k | x (i); θ)) = exp ( ( θ ( k ) - ψ ) T x ) Σ K j = 1 exp ( ( θ ( j ) - ψ ) T x ) = exp ( θ ( k ) T x ) Σ K j = 1 exp ( θ ( j ) T x )$ 因此，我们可将某组参数如θ(K)固定设成零向量，而只需要寻优剩下的K−1组参数。
与Logistic Regression的关系：在K=2时，有 $h θ (x) = [P (y = 0 | x; θ) P (y = 1 | x; θ)] = 1 exp ( θ ( 1 ) T x ) + exp ( θ ( 2 ) T x ) ⎡ ⎣ exp (θ (1) T x) exp (θ (2) T x) ⎤ ⎦$ 令θ(2)=0，θ=−θ(1)，则 $h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ exp ( - θ T x ) 1 + exp ( - θ T x ) 1 1 + exp ( - θ T x ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$

0 0