台湾大学深度学习课程学习笔记 lecture1-2 Neural Network Basics

来源：互联网发布：dota2网络连接超时编辑：程序博客网时间：2024/06/10 05:18

以下内容和图片均来自台湾大学深度学习课程。
课程地址：https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html

本节课主要讲了三个问题：
1. What is the model? (function hypothesis set)
2. What does a “good” function mean?
3. How do we pick the “best” function?

为了回答这三个问题，引出了本节课的主要内容框架。
本节内容

接下来针对上面的框架，做出了如下的讲解。本次笔记根据框架内容，从模型、损失函数、优化方法这三个完成。

模型

数字转化

输入数据 x 可能是图片或者语音，首先将其转化为可进行计算的数字信息，这些数字保存在多维矩阵中。
同样的，对输出结果 y ，以分类任务的二元分类与多元分类为例，也可以保存在一个多维矩阵中。
这样，在接下来的模型处理中，使用这些转化后的数字进行计算。

数字转化

单层神经网络

上节讲到的单个神经元结构中，将bias b 当成一个特殊的权重，此时对应的 x 应该为1。

b 的意义

那么 b 的意义是什么呢？
如果没有 b 的话，由于公式 z=wx+b 是高维线性的关系，如果没有 b ，那么所有的 z 必定都是过原点的，那么很多情况无法将其进行准确划分（如下图）。所以添加了bias，使得 z 可以在更多情况下进行准确划分。
bias

这个地方，台大原视频课程中，老师采用的下面的方式讲解，这里将 b 转换到了 σ(z) 的方程里，多做了一层转换，不是那么容易理解，所以用了上面自己所理解的方法解释。

bias2

分类模型应用

在二分类中，例如判断图形是否为2，我们得到的结果为“is”和“not”的概率。一般认为大于0.5所对应的结果为最终预测的结果。

再多分类中，例如判断图形是0~9中的哪一个数字。每一个分类都能得到一组“is”和“not”的概率。由于数字之间具有一些相似性（例如5和6，在手写中图片中可能比较接近），导致最终结果中可能5和6的预测为“is”的概率都大于0.5。所以一般认为“is”的概率最大的那个所对应的为最终预测的结果。
多分类

单层的局限性

单层神经网络（无隐藏层），首先提到的就是没有共享权重，也就是说，每个输入的 x 只进行了一个神经元的转换就输出了 y 结果，各个神经元之间没有共享信息，导致模型过于简单。
单层局限性1

模型过于简单的直接结果就是很多情况下，无法进行区分。直观的理解如下图，当出现第三种情况是，无法使用模型进行区分。

单层局限性2

所以在实际应用中，我们往往需要多层神经网络，来增加模型的复杂度。

那么为什么增加层数后模型就能进行复杂的划分了呢？
针对上面第三个无法划分的图，我们使用两层神经网络来进行简单的XOR演示。可以看出，两层过后，第三层（输出层）的结果已经可以将之前无法进行线性切分的点进行区分。

XOR

其实，两层神经元实际上效果已经远远好于一层的结果。接下来如果继续增加层数，每增加一层，模型的复杂度会极大的得到增强。所以，多层神经网络能够有效的处理非常复杂的问题。

所以，对比上面单层的模型，下面两层和三层的 function模拟图形如下。所以直观的来看，多层的模型比一层的要复杂的多。
多层模拟图

多层神经网络

多层神经网络中，两端是输入和输出层，中间是隐藏层。输入层不计算层数，比如第一层，指的是隐藏层的第一层，输入样本 x 是不计算进层数的。

多层神经网络

符号表示方式

激活函数 a 的符号表示方法。

a的符号

系数 w 的符号表示方法，这里需要注意的是，一般我们公式都写成 z=WTx+b ，而此时的系数 W 是需要转置的，所以针对的 wij 的下标表示方式也需要注意一下，i 代表 l 列神经元数量，而 j 代表 (l−1) 列。有时候转置符号 T 会省略。

w的符号

b 的符号表示方法，bi 的 i 为当前层神经元的数量。

b的符号

z 公式表示方法。

z公式

综和上面所有符号：

下面是公式的矩阵表示形式，相比之前有了极大的简化。

z公式矩阵表示

a公式矩阵表示

y公式矩阵表示

激活函数 Activation Function

下面是最常用的三个激活函数。三个都是非线性的。

激活函数

非线性

为什么要用非线性的激活函数？
每个隐藏层都用线性函数当做激活函数的话，那么模型永远都是线性的，无法去做非线性的操作，那么模型的能力永远也不会有较大的提升。
换种说法，理论上讲是可以用一个更复杂的线性函数，来表示多个线性的函数的。我可以用一个更复杂的线性函数来表示之前的多层线性函数，那么多层变的没有意义。
如果激活函数是非线性的，那么模型效果才可以不断地通过非线性转换来提高，多层神经网络才变得有意义。

非线性原因