DL&ML基础学习一

来源：互联网发布：centos nat 配置编辑：程序博客网时间：2024/05/22 04:53

神经网络中常用的激活函数sigmoid，tanh等，第一次听到sigmoid函数是在逻辑回归的部分，实际从该角度看神经网络是高级的分类模型，而逻辑回归也是为了分类目标，他们可以使用相同的loss function，而神经网络则是即为灵活的模型，模型自身结构可以变化，参数设定可以变，单元之间的机制可以改变，使用的激活函数、损失函数可以变化等等。激活函数是为了引入非线性性质，进行非线性分类。sigmoid函数种输出范围[0-1]，不容易发散而无法收敛，而且输出可以作为概率的表示，同时容易求导。但是sigmoid函数容易饱和，饱和意思是他的导数不再变化，当自变量z趋于极小或极大时导致sigmoid值趋于0或1，同时其导数趋于0，且变化很小，而使用例如差平方函数作为loss function则更新w权值的式子中含有sigmoid函数的导数，而导数不再变化带来的结果是w更新幅度很小，从而导致参数更新效率降低，训练时间变长。

激活函数softmax函数，对应多分类问题，共有k个类别，输出一个k维向量，每一维表示是这个类别的概率。式子中除以所有概率和，是为了归一化，是的k维向量，每一维的数字在（0,1）之间，且和为1。在判断到底是属于哪一类时，只需取输出的向量中，概率最大的那一维所对应的类别即可。

机器学习中指的归一化对输入数据的归一化，能够加快求解速度和精确度。最常用的例子是在递归下降过程中的路线，未归一化的路线明显长于归一化了的，代表求解速度。多使用线性归一化函数、0均值标准化或非线性归一化函数，主要目标在于把原始数据转化为某一个有限固定的数据区间，可能是0~1，或者均值为0方差1的高斯分布，应用场景不同。

最大熵模型maximum entropy model：熵用于表示系统状态的不确定性或混乱程度，熵越大则越混乱，随机变量不确定性越大，而此时概率分布最均匀。在满足已知约束条件之下，使得熵达到最大即最大熵模型。或者说，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大，而考虑约束则需要引入拉格朗日算子将有约束的最优化问题转化为无约束的最优化问题。最大熵模型是用来对随机变量出现的概率分布进行预测的模型，预测概率分布就是计算每个随机变量出现的概率多少，前提是需要满足某些约束条件。

梯度下降中反向计算各偏导的过程如下：

首先求得 $\frac{\partial L}{\partial a}$ 如下：

(6) $\begin{equation*} \frac{\partial L}{\partial a} = - \frac{y}{a} + \frac{1 - y}{1 - a} \end{equation*}$

然后可以由链式法则求得 $\frac{\partial L}{\partial z}$ 如下：

(7) $\begin{equation*} \frac{\partial L}{\partial z} = \frac{\partial L}{\partial a} \cdot \frac{da}{dz} \end{equation*}$

其中， $a = \sigma(z)$ 是 Sigmoid 函数，有：

(8) $\begin{equation*} \frac{d\sigma(z)}{dz} = \sigma(z)(1 - \sigma(z)) \end{equation*}$

将式 (6)、(8) 带入式 (7)，得：

(9) $\begin{equation*} \frac{\partial L}{\partial z} = (- \frac{y}{a} + \frac{1 - y}{1 - a}) \cdot a(1 - a) \ = -y(1 - a) + a(1 - y) \ = -y + a \end{equation*}$

最后求得 $\frac{\partial L}{\partial w_{1}}$ 、 $\frac{\partial L}{\partial w_{2}}$ 和 $\frac{\partial L}{\partial b}$ 如下：

(10) $\begin{equation*} \frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w_{1}} = \frac{\partial L}{\partial z} \cdot x_{1} \end{equation*}$

(11) $\begin{equation*} \frac{\partial L}{\partial w_{2}} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w_{2}} = \frac{\partial L}{\partial z} \cdot x_{2} \end{equation*}$

(12) $\begin{equation*} \frac{\partial L}{\partial b} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial b} = \frac{\partial L}{\partial z} \end{equation*}$

这里 $\frac{\partial L}{\partial z}$ 不再展开。实际应用中，在由式 (9) 求得 $\frac{\partial L}{\partial z}$ 的值之后，就可以直接带入式 (10)、(11)、(12) 进行计算。

阅读全文

0 0