深度学习算法原理——Softmax回归

来源：互联网发布：营销软件广告编辑：程序博客网时间：2024/05/29 04:51

注：最近打算将UFLDL教程重新看一遍，其实里面有很多关于神经网络以及深度学习的知识点很有用，但是只是学习深度学习的话有一些内容就有点多余，所以想整理一个笔记，记录下神经网络到深度学习的一些知识点。整个教材已经非常好，网上有原版的英文版，也有翻译的中文版，这个只是自己的学习笔记，对原来教程中的内容进行了梳理，有些图也是引用的原来的教程，若内容上有任何错误，希望与我联系，若内容有侵权，同样也希望告知，我会尽快删除。

这个笔记主要分为以下几个部分：
- 神经网络
- 自编码器与稀疏性
- Softmax回归
- 自我学习
- 深度网络
- 其他，如PCA

三、Softmax回归

1、Logistic回归简介

Logistic回归是解决二分类问题的分类算法。假设有m个训练样本{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}，对于Logistic回归，其输入特征为：x(i)∈Rn+1，类标记为：y(i)∈{0,1}，假设函数为Sigmoid函数：

h θ (x) = 1 1 + e - θ T x

其中，模型的参数为θ，需要通过最小化损失函数得到，模型的损失函数为：

J (θ) = - 1 m [\sum i = 1 m y (i) l o g h θ (x (i)) + (1 - y (i)) l o g (1 - h θ (x (i)))]

此时，可以通过梯度下降法对其进行求解，其梯度为：

▽ θ j J (θ) = - 1 m \sum i = 1 m [y ( i ) h θ ( x ( i ) ) \cdot ▽ θ j h θ (x (i)) + 1 - y ( i ) 1 - h θ ( x ( i ) ) \cdot ▽ θ j (1 - h θ (x (i)))] = - 1 m \sum i = 1 m [y ( i ) h θ ( x ( i ) ) \cdot ▽ θ j h θ (x (i)) - 1 - y ( i ) 1 - h θ ( x ( i ) ) \cdot ▽ θ j h θ (x (i))] = - 1 m \sum i = 1 m [(y ( i ) h θ ( x ( i ) ) - 1 - y ( i ) 1 - h θ ( x ( i ) )) \cdot ▽ θ j h θ (x (i))]

= - 1 m \sum i = 1 m ⎡ ⎣ ⎢ y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) \cdot ▽ θ j h θ (x (i)) ⎤ ⎦ ⎥ = - 1 m \sum i = 1 m ⎡ ⎣ ⎢ y ( i ) - h θ ( x ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) \cdot ▽ θ T x (i) h θ (x (i)) \cdot ▽ θ j (θ T x (i)) ⎤ ⎦ ⎥

而：

▽ θ T x (i) h θ (x (i)) = h θ (x (i)) (1 - h θ (x (i)))

▽ θ j (θ T x (i)) = x (i) j

因此，梯度的公式为：

▽ θ j J (θ) = - 1 m \sum i = 1 m [(y (i) - h θ (x (i))) \cdot x (i) j]

根据梯度下降法，得到如下的更新公式：

θ j : = θ j - α ▽ θ j J (θ)

2、Softmax回归简介

Softmax是Logistic回归在多分类上的推广，即类标签y的取值大于等于2。假设有m个训练样本{(x(1),y(1)),(x(2),y(2)),⋯,(x(m),y(m))}，对于Softmax回归，其输入特征为：x(i)∈Rn+1，类标记为：y(i)∈{0,1,⋯k}。假设函数为对于每一个样本估计其所属的类别的概率p(y=j∣x)，具体的假设函数为：

h θ (x (i)) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ p (y (i) = 1 ∣ x (i); θ) p (y (i) = 2 ∣ x (i); θ) ⋮ p (y (i) = k ∣ x (i); θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 \sum k j = 1 e θ T j x ( i ) ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e θ T 1 x (i) e θ T 2 x (i) ⋮ e θ T k x (i) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

其中θ表示的向量，且θi∈Rn+1。则对于每一个样本估计其所属的类别的概率为：

p (y (i) = j ∣ x (i); θ) = e θ T j x ( i ) \sum k l = 1 e θ T l x ( i )

3、Softmax回归的代价函数

类似于Logistic回归，在Softmax的代价函数中引入指示函数I{⋅}，其具体形式为：

I {e x p r e s s i o n} = {01 if e x p r e s s i o n = f a l s e if e x p r e s s i o n = t r u e

那么，对于Softmax回归的代价函数为：

J (θ) = - 1 m ⎡ ⎣ \sum i = 1 m \sum j = 1 k I {y (i) = j} l o g e θ T j x ( i ) \sum k l = 1 e θ T l x ( i ) ⎤ ⎦

4、Softmax回归的求解

对于上述的代价函数，可以使用梯度下降法对其进行求解，首先对其进行求梯度：

▽ θ j J (θ) = - 1 m \sum i = 1 m ⎡ ⎣ ▽ θ j \sum j = 1 k I {y (i) = j} l o g e θ T j x ( i ) \sum k l = 1 e θ T l x ( i ) ⎤ ⎦ = - 1 m \sum i = 1 m ⎡ ⎣ ⎢ ⎢ I {y (i) = j} \cdot \sum k l = 1 e θ T l x ( i ) e θ T j x ( i ) \cdot e θ T j x ( i ) \cdot x ( i ) \cdot \sum k l = 1 e θ T l x ( i ) - e θ T j x ( i ) \cdot x ( i ) \cdot e θ T j x ( i ) ( \sum k l = 1 e θ T l x ( i ) ) 2 ⎤ ⎦ ⎥ ⎥ = - 1 m \sum i = 1 m ⎡ ⎣ I {y (i) = j} \cdot \sum k l = 1 e θ T l x ( i ) - e θ T j x ( i ) \sum k l = 1 e θ T l x ( i ) \cdot x (i) ⎤ ⎦

最终的结果为：

- 1 m \sum i = 1 m [x (i) (I {y (i) = j} - p (y (i) = j ∣ x (i); θ))]

注意，此处的θj表示的是一个向量。通过梯度下降法的公式可以更新：

θ j : = θ j - α ▽ θ j J (θ)

5、Softmax回归中的参数特点

在Softmax回归中存在着参数冗余的问题。简单来讲就是参数中有些参数是没有任何用的，为了证明这点，假设从参数向量θj中减去向量ψ，假设函数为：

p (y (i) = j ∣ x (i); θ) = e ( θ j - ψ ) T x ( i ) \sum k l = 1 e ( θ l - ψ ) T x ( i ) = e θ T j x ( i ) \cdot e - ψ T x ( i ) \sum k l = 1 e θ T l x ( i ) \cdot e - ψ T x ( i ) = e θ T j x ( i ) \sum k l = 1 e θ T l x ( i )

从上面可以看出从参数向量θj中减去向量ψ对预测结果并没有任何的影响，也就是说在模型中，存在着多组的最优解。

为了是算法能够尽可能简单，保留所有的参数，但是对代价函数加入权重衰减来解决参数冗余的问题，权重衰减即对参数进行正则化。

如对参数进行L2正则约束，L2正则为：

λ 2 \sum i = 1 k \sum j = 0 n θ 2 i j

此时，代价函数为：

J (θ) = - 1 m ⎡ ⎣ \sum i = 1 m \sum j = 1 k I {y (i) = j} l o g e θ T j x ( i ) \sum k l = 1 e θ T l x ( i ) ⎤ ⎦ + λ 2 \sum i = 1 k \sum j = 0 n θ 2 i j

其中，λ>0，此时代价函数是一个严格的凸函数。

对该函数的导数为：

▽ θ j J (θ) = - 1 m \sum i = 1 m [x (i) (I {y (i) = j} - p (y (i) = j ∣ x (i); θ))] + λ θ j

5、Softmax与Logistic回归的关系

Logistic回归算法是Softmax回归的特征情况，即k=2时的情况，当
k=2时，Softmax回归为：

h θ (x) = 1 e θ T 1 x + e θ T 2 x [e θ T 1 x e θ T 2 x]

利用Softmax回归参数冗余的特点，令ψ=θ1，从两个向量中都减去这个向量，得到：

h θ (x) = 1 e ( θ 1 - ψ ) T x + e ( θ 2 - ψ ) T x [e (θ 1 - ψ) T x e (θ 2 - ψ) T x] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 1 + e ( θ 2 - θ 1 ) T x e ( θ 2 - θ 1 ) T x 1 + e ( θ 2 - θ 1 ) T x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ 1 1 + e ( θ 2 - θ 1 ) T x 1 - 1 1 + e ( θ 2 - θ 1 ) T x ⎤ ⎦ ⎥ ⎥ ⎥

上述的表达形式与Logistic回归是一致的。

6、多分类算法和二分类算法的选择

有人会觉得对于一个多分类问题，可以使用多个二分类来完成，对于多分类问题是直接选择多分类的分类器还是选择多个二分类的分类器进行叠加，在UFLDL中，作者给出了这样的解释：取决于类别之间是否互斥。

对于一个多分类的问题，是直接选择多分类器直接计算还是选择多个二分类器进行计算取决于问题中类别之间是否互斥。

是互斥的 –> Softmax回归
不是互斥的 –> 多个独立的Logistic回归

对于Softmax回归更多内容，包括实验可见博客简单易学的机器学习算法——Softmax Regression

参考文献

1、英文版：UFLDL Tutorial

2、中文版：UFLDL教程

若需要PDF版本，请关注我的新浪博客@赵_志_勇，私信你的邮箱地址给我。

1 0