深度学习中30个关于数据的问题

来源:互联网 发布:java带毫秒 编辑:程序博客网 时间:2024/05/20 09:06

(1)下面的数据是线性可分的嘛? 否
这里写图片描述
(2)下面哪个是通用的模型逼近器?
A) Kernel SVM
B) Neural Networks
C) Boosted Decision Trees
D) All of the above
D:以上所有都可以得到一个近似的函数。
(3)下面那个问题可以用深度学习来解决? D
A:蛋白质结构预测
B:化学反应的预测
C:外来粒子的检测
D:以上所有
(4)当您在CNN中使用1×1卷积时,以下哪个语句是真实的? D
A) It can help in dimensionality reduction
B) It can be used for feature pooling
C) It suffers less overfitting due to small kernel size
D) All of the above
(5)问题背景:
1:可以训练一个网络,所有权值初始化为0; 错
2:可以训练一个网络,将偏置初始化为0; 对
答:即使所有偏差都为零,神经网络也可能有学习的机会;如果所有的权重都是零,神经网络可能永远不会执行学习任务。
(6)输入层中的节点数为10,隐层为5。从输入层到隐层的最大连接数为?
A) 50
B) Less than 50
C) More than 50
D) It is an arbitrary value
A:由于MLP是完全连接的有向图,连接数最大是输入层和隐藏层中节点数量的倍数。
(7)输入图像被转换成大小为28×28的矩阵,大小为7×7的核/滤波器,步长为1。得到的卷积矩阵的大小是多少? 22×22
答:根据C =((I-F + 2P)/ S)+1,C是卷积矩阵的大小,I是输入矩阵的大小,F是滤波器的大小 矩阵和P填充应用于输入矩阵,S是步长。((28-7+2×0)/1)+1=22
(8)在输入层中有8个神经元的简单MLP模型中,隐藏层中有5个神经元和1个输出层神经元。 隐藏输出层和输入隐层之间权重矩阵的大小是多少?
A) [1×5] , [5×8]
B) [8×5] , [1×5]
C) [8×5] , [5×1]
D) [5×1] , [8×5]
D:任何层1和层2之间的权重大小由[层2中的节点在层2中的X个节点]给出。
(9)将卷积核F以步长为2作用在矩阵I上,得到的结果为? C
这里写图片描述
这里写图片描述
(10)给定如下大小为7×7的矩阵,当用一个大小为3×3,stride为2的max-pooling进行池化,输出为? A
这里写图片描述

(11)如果我们希望预测n个类(p1,p2..pk)的概率,使得所有n的p的和等于1,则以下哪个函数可以用作输出层中的激活函数?
A) Softmax
B) ReLu
C) Sigmoid
D) Tanh
A:softmax所有输出的k个概率和为1。
(12)假设一个简单的MLP模型有3个神经元,输入1,2,3,每个神经元的权重初始化为4,5,6。激活函数是一个常量为3的线性函数,输出为?
3×(1×4+2×5+3×6)=96
(13)下面哪个激活函数在图像分类中不能作为输出层?
A) sigmoid
B) Tanh
C) ReLU
D) If(x>5,1,0)
E) None of the above
C:ReLU输出的是0到无穷大范围内的连续输出,而输出层需要的是一个有限范围内的值。
(14)神经网络中,每个参数都可以有自己的学习率?
答案是肯定的。
(15)Dropout可以应用到神经网络模型的可见层中?
答案是肯定的,下面是在输入层和第一个隐含层中加入dropout,dropout rate设置为20%,意味着五个输入中的一个将随机从每个更新周期中排除。

def create_model():      # create model      model = Sequential()      model.add(Dropout(0.2, input_shape=(60,)))      model.add(Dense(60, activation='relu'))      model.add(Dense(1, activation='sigmoid'))      # Compile model  sgd = SGD(lr=0.1)      model.compile(loss='binary_crossentropy', optimizer=sgd, metrics=['accuracy'])      return model

(16)使用一个包含3个神经元的隐含层和1个输出神经元的全连接架构来做二分类任务,下面是输入和输出的数据
Input dataset: [ [1,0,1,0] , [1,0,1,1] , [0,1,0,1] ]; Output: [ [1] , [1] , [0] ]
隐含层和输出层的所有权重都初始化为1,是否能够学习到给定数据想要的模型?
答案是否定的,神经网络模型的所有权重都相同,所有神经元都将尝试做同样的事情,模型永远不会收敛。
(17)使用batch normalization可以解决以下哪一个神经网络训练中的问题?
A) 过拟合
B) 防止激活过高或者过低
C) 网络训练太慢
D) B和C
E) 以上所有
D:batch normalization在限制激活的同时间接地提高了训练时间。
(18)下面哪个在训练深度学习模型的每个epoch中都有恒定的输入? A
A) Weight between input and hidden layer
B) Weight between hidden and output layer
C) Biases of all hidden layer neurons
D) Activation function of output layer
E) None of the above
(19)用ReLU代替sigmoid作为激活函数,能够解决梯度消散的问题?
答案是肯定的。
(20)CNN,中max-pooling总能起到减少参数的作用?
不一定,当max-pooling层的pooling size设置为1时,参数是不变的。
(21)反向传播不能应用到池化层中?
答案是否定的。
(22)对于卷积操作,问号里面的值是?
这里写图片描述
(23)对于一个二分类问题,你会选择下面哪个架构?
这里写图片描述
这里写图片描述
答案是两者都可以,可以使用一个神经元作为二分类的输出也可以使用两个不同的神经元。
(24)神经网络训练过程中training loss/validation loss保持恒定不变,可能的原因是?
1:网络结构的定义不规范;
2:给定的数据中存在噪声。
(25)下面红色曲线表示在深度学习算法中相对于每个时期的训练精度。 绿色和蓝色曲线都表示验证精度。
这里写图片描述
哪条曲线表明了过拟合的发生?
“蓝色曲线”:绿色曲线有更好的泛化性能。
(26)下面关于dropout的论述中正确的有?
1:Dropout通过组合许多不同的架构来提供一种可以得到近似的方法。 对
2:Dropout需要高的学习率; 错
3:Dropout可以防止过拟合; 对
(27)门控循环单位可以帮助防止RNN中的消除梯度问题?
答案是“对”的,网络有隐含的记忆来记住过去的行为。
(28)假设使用早期停止机制,patience设置为2,神经网络模型何时停止训练?
当patience设置为2时,网络在epoch 4后会自动停止训练。
(29)使用深度学习的情绪分析是一个多对一的预测任务?
答案是“对”的,预测的最终结果要么是“正”,要么是“负”。
(30)采取什么措施可以防止过拟合? ABCD
A、数据扩充;
B、权值共享;
C、提前结束模型迭代;
D、采用dropout;