《Deep Learning》你需要知道的答案

来源：互联网发布：js 表格插件编辑：程序博客网时间：2024/04/27 18:49

《Deep Learning》你需要知道的答案

本文来自微信公众号： AI研习社的一篇文章——“深度学习面试你必须知道这些答案”，我也打印了这本书的英文原版，正好可以带着这些问题去学习，每个题目下原文已经给出了具体问题答案的页码范围。然后我也会不定期的根据书中内容以及自己的理解，详细的更新下面问题的答案。若读者发现我的回答有翻译不对或者理解不正确的地方，也欢迎留言指正，相互讨论学习！

1.列举常见的一些范数及其应用场景，如 L0，L1，L2，L∞，Frobenius 范数。

答：

机器学习中用Norm来衡量向量的大小，Norms把是把一个向量映射成一个非负值的函数，我们可以理解为Norm后的值是x这个向量表示的点距离原点的距离。
L2是欧几里得范数（Euclidean norm），在快接近源值时L2范数增长缓慢，对于元素非零不是零很敏感的情况就不适用了。
L1范数则应用在零元素与非零元素差别很重要时。
L0范数则用来统计向量中非零元素的个数（不是严格意义上的norm）
L∞范数（max norm）只是统计向量中的最大值

Regularization: 就是在范数前面乘上一个惩罚系数(就是caffe框架下的 weight_decay 这个超参数。 )，加在WX后，来限制权重W，不限制偏置b。

（p39-p40 ；还有 p230-p236 有 regularization 的应用）

2.简单介绍一下贝叶斯概率与频率派概率，以及在统计中对于真实参数的假设。

答：

在很多情况下，一些简单但有不确定性的准则比一些复杂但是确定的准则更实用，概率论刚开始是要用来分析事物发生的频率，这些事物大部分是可重复的，但是对于一些不可重复的事件，我们就用概率来表示置信度（degree of belief），1则表示绝对发生。
前者可以用来直接表示事情发生可能的叫频率派概率（frequentist probability）
后者对确定性进行定量表示的是贝叶斯概率（Bayesian probability）
(p55)

3.概率密度的万能近似器

答：混合高斯模型。每一个模型都有一个独立的均值和方差，所以可以用一个或者多个高斯模型来拟合多种情形。
- p67：3.10 上面那一段

4.简单介绍一下 sigmoid，relu，softplus，tanh，RBF 及其应用场景

答：

sigmoid常用来产生一个伯努利分布，因为它的值域范围时（0,1），当输入值很大或者很小时，曲线就会很平坦，将会对输入细微的变化不再敏感。
softplus常用来产生正态分布，因为它的取值范围是（0，正无穷）
relu (rectified linear units) 是g(x) = max{0 ,x},它易于优化，与线性分类器的最大区别就是relu的一半定义域内都为0。
sigmoid 和 softplus 在 p67 页；全部的在 p193-p197

5.Jacobian，Hessian 矩阵及其在深度学习中的重要性

答：

Jacobian矩阵可以看做是包含输出对所有输入的一阶偏导数的矩阵
Hessian矩阵可以看做是包含输出函数对所有输入的二阶偏导数的矩阵，所以Hessian矩阵是Jacobian矩阵的求导结果。若二次偏导是连续的，则Hessian矩阵是就是对称的。
p86-p92

6.KL 散度在信息论中度量的是哪个直观量

答：

如果我们对于同一个随机变量x，有两个独立的概率分布P（x）和Q（x），我们就可以通过KL散度来衡量这两个分布之间的不同程度。（交叉熵也是用来衡量各分布之间不同的）
p74

7.数值计算中的计算上溢与下溢问题，如 softmax 中的处理方式

答：

因为我们需要用有限的比特模式去表示无限的实数，所以会有估算误差（rounding error），当一个数接近于0被估计成0的时候可能会产生下溢（underflow）的情况,很多函数可能会因此意义产生巨大变化，例如数除以这个数，变为0以后，可能会引发计算机报错。上溢（overflow）问题则是一个数接近于正无穷或者是负无穷大，这两种情况正常程序都会输出 not-a-number（NAN）。所以可以利用softmax函数的特性来处理这样的问题，这样无穷小时就会输出0，无穷大时经过softmax就会输出1。
p80-p81

8.与矩阵的特征值相关联的条件数 (病态条件) 指什么，与梯度爆炸与梯度弥散的关系

答：

条件数是指当A时一个nxn的矩阵并且可以特征值分解的时候，条件数 = | 最大的特征值/最小的特征值 |
当这个值很大时，矩阵变换就会对输入的error很敏感。
p82;

9.在基于梯度的优化问题中，如何判断一个梯度为 0 的零界点为局部极大值／全局极小值还是鞍点，Hessian 矩阵的条件数与梯度下降法的关系

答：p86-p92

10.KTT 方法与约束优化问题，活跃约束的定义

答：p93-p95

11.模型容量，表示容量，有效容量，最优容量概念

答：p111;p113;p114;p115

12.正则化中的权重衰减与加入先验知识在某些条件下的等价性

答：p119;p138

13.高斯分布的广泛应用的缘由

答：p63-p64

14.最大似然估计中最小化 KL 散度与最小化分布之间的交叉熵的关系

答：p132

15.在线性回归问题，具有高斯先验权重的 MAP 贝叶斯推断与权重衰减的关系，与正则化的关系

答: p138-p139

16.稀疏表示，低维表示，独立表示

答：p147

17.列举一些无法基于地图 (梯度？) 的优化来最小化的代价函数及其具有的特点

答：p155 最顶一段

18.在深度神经网络中，引入了隐藏层，放弃了训练问题的凸性，其意义何在

答：p191-192

19.函数在某个区间的饱和与平滑性对基于梯度的学习的影响

答：p160

20.梯度爆炸的一些解决办法

答：p302

21.MLP 的万能近似性质

答：p198

22.在前馈网络中，深度与宽度的关系及表示能力的差异

答：p200-p201

23.为什么交叉熵损失可以提高具有 sigmoid 和 softmax 输出的模型的性能，而使用均方误差损失则会存在很多问题。分段线性隐藏层代替 sigmoid 的利弊

答：p226;p226

24.表示学习的发展的初衷？并介绍其典型例子: 自编码器

答：p3-p4;p4

25.在做正则化过程中，为什么只对权重做正则惩罚，而不对偏置做权重惩罚

答：p230

26.深度学习神经网络中，所有的层中考虑使用相同的权重衰减的利弊

答：p230

27.正则化过程中，权重衰减与 Hessian 矩阵中特征值的一些关系，以及与梯度弥散，梯度爆炸的关系

答：p231-234

28.L1／L2 正则化与高斯先验／对数先验的 MAP 贝叶斯推断的关系

答：p234-p237

29.什么是欠约束，为什么大多数的正则化可以使欠约束下的欠定问题在迭代过程中收敛

答：p239

30.为什么考虑在模型训练时对输入 (隐藏单元／权重) 添加方差较小的噪声，与正则化的关系

答：p240-p243

31.共享参数的概念及在深度学习中的广泛影响

答：p245;p253

32.Dropout 与 Bagging 集成方法的关系，以及 Dropout 带来的意义与其强大的原因

答：p258-p268

33.批量梯度下降法更新过程中，批量的大小与各种更新的稳定性关系

答：p279

34.如何避免深度学习中的病态，鞍点，梯度爆炸，梯度弥散

答：p282-p293

35.SGD 以及学习率的选择方法，带动量的 SGD 对于 Hessian 矩阵病态条件及随机梯度方差的影响

答：p294；p296-p300

36.初始化权重过程中，权重大小在各种网络结构中的影响，以及一些初始化的方法；偏置的初始化

答：初始化权重：p301-p305；偏置初始化：p305-p306

37.自适应学习率算法: AdaGrad，RMSProp，Adam 等算法的做法

答：AdaGrad:p307; RMSProp:p307-p308; Adam:p308-p309

38.二阶近似方法: 牛顿法，共轭梯度，BFGS 等的做法

答：牛顿法：p310-p313; 共轭梯度: p313-p316; BFGS:p316-p317

39.Hessian 的标准化对于高阶优化算法的意义

答：p318-p321

40.卷积网络中的平移等变性的原因，常见的一些卷积形式

答：平移等变性：p338-p339；常见的一些卷积形式：p347-p358

41.pooling 的做法的意义

答：p342-p347

42.循环神经网络常见的一些依赖循环关系，常见的一些输入输出，以及对应的应用场景

答：p378-p395

43.seq2seq，gru，lstm 等相关的原理

答：seq2seq:p396-p397; gru:p411-p412; lstm:p408-p411

44.采样在深度学习中的意义

答：p469-p471

45.自编码器与线性因子模型，PCA，ICA 等的关系

答：自编码器与线性因子模型: p489-p490;PCA:p490-p491;ICA:p491-p493

46.自编码器在深度学习中的意义，以及一些常见的变形与应用

答：意义: p502-p503; 常见变形: p503-p508；p509-p512; p521-p524 应用: p515-p520;p524-p525

47.受限玻尔兹曼机广泛应用的原因

答：p460: 想特别了解的人注意这句话： See Mohamed et al. (2012b) for an analysis of reasons for the success of these models.

48.稳定分布与马尔可夫链

答：p595-p598

49.Gibbs 采样的原理

答：p599

50.配分函数通常难以计算的解决方案

答：p605,p606 第一段

51.几种参数估计的联系与区别: MLE／MAP／贝叶斯

答：P134-P139

52.半监督的思想以及在深度学习中的应用

答：p541-p546

53.举例 CNN 中的 channel 在不同数据源中的含义

答：p360-p362

54.深度学习在 NLP，语音，图像等领域的应用及常用的一些模型

答：p452-p485

55.word2vec 与 glove 的比较

答：How is GloVe different from word2vec?；GloVe 以及 Word2vec 能称为 deep learning 么？这俩模型的层次其实很浅的；

http://t.cn/RvYslDf

这个问题没找到答案，我去找了 quora 和知乎上的相关问题以及 quora 一个回答提及的论文。（若有人在书中找到，请批评指正）

56.注意力机制在深度学习的某些场景中为何会被大量使用，其几种不同的情形

答：p475-p476

57.wide&deep 模型中的 wide 和 deep 介绍

答：https://arxiv.org/pdf/1606.07792.pdf 此问题答案未在书中找到，为此我去找了原论文，论文图 1 有详细的介绍。（若有人在书中找到，请批评指正）

58.核回归与 RBF 网络的关系

答：p142

59.LSTM 结构推导，为什么比 RNN 好？

答：p408-p411

60.过拟合在深度学习中的常见的一些解决方案或结构设计

答：p230-p268；包括：Parameter Norm Penalties(参数范数惩罚); Dataset Augmentation (数据集增强); Early Stopping(提前终止); Parameter Tying and Parameter Sharing (参数绑定与参数共享); Bagging and Other Ensemble Methods(Bagging 和其他集成方法)；Dropout. 另外还有 Batch Normalization。

61.怎么理解贝叶斯模型的有效参数数据会根据数据集的规模自动调整

答：关于非参数模型：p115-p116 ；非参数模型不依赖于特定的概率模型，它的参数是无穷维的，数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模

阅读全文

1 0