吴恩达《深度学习》-课后测验-第一门课 (Neural Networks and Deep Learning)-Week 4 - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络)

Week 4 Quiz - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络)

\1. What is the “cache” used for in our implementation of forward propagation and backward propagation?(在实现前向传播和反向传播中使用的“cache”是什么?)

【 】It is used to cache the intermediate values of the cost function during training.(用于在训练期间缓存成本函数的中间值。)

【 】We use it to pass variables computed during forward propagation to the corresponding backward propagation step. It contains useful values for backward propagation to compute derivatives.(我们用它传递前向传播中计算的变量到相应的反向传播步骤,它包含用于计算导数的反向传播的有用值。)

【 】It is used to keep track of the hyperparameters that we are searching over, to speed up computation.(它用于跟踪我们正在搜索的超参数,以加速计算。)

【 】We use it to pass variables computed during backward propagation to the corresponding forward propagation step. It contains useful values for forward propagation to compute activations.(我们使用它将向后传播计算的变量传递给相应的正向传播步骤,它包含用于计算计算激活的正向传播的有用值。)

答案

【★】We use it to pass variables computed during forward propagation to the corresponding backward propagation step. It contains useful values for backward propagation to compute derivatives.(我们用它传递前向传播中计算的变量到相应的反向传播步骤,它包含用于计算导数的反向传播的有用值。)

Note: the “cache” records values from the forward propagation units and sends it to the backward propagation units because it is needed to compute the chain rule derivatives.(请注意:“cache”记录来自正向传播单元的值并将其发送到反向传播单元,因为需要链式计算导数。)

?

\2. Among the following, which ones are “hyperparameters”? (Check all that apply.)(以下哪些是“超参数”?)

【 】size of the hidden layers \(??^{[??]}\) (隐藏层的大小\(??^{[??]}\))

【 】learning rate α(学习率 α)

【 】number of iterations(迭代次数)

【 】number of layers ?? in the neural network(神经网络中的层数??)

答案

全对

Note: You can check this Quora post or this blog post.(请注意:你可以查看 Quora 的这篇文章 或者 这篇博客.)

?

\3. Which of the following statements is true?(下列哪个说法是正确的?)

【 】The deeper layers of a neural network are typically computing more complex features of the input than the earlier layers. (神经网络的更深层通常比前面的层计算更复杂的输入特征。) 【 】 The earlier layers of a neural network are typically computing more complex features of the input than the deeper layers.(神经网络的前面的层通常比更深层计算更复杂的输入特征。)

答案

【★】The deeper layers of a neural network are typically computing more complex features of
the input than the earlier layers. (神经网络的更深层通常比前面的层计算更复杂的输入特征。)

Note: You can check the lecture videos. I think Andrew used a CNN example to explain this.(注意:您 可以查看视频,我想用吴恩达的用美国有线电视新闻网的例子来解释这个。)

?

\4. Vectorization allows you to compute forward propagation in an ??-layer neural network without an explicit for-loop (or any other explicit iterative loop) over the layers l=1, 2, …,L. True/False?(向量化允许您在??层神经网络中计算前向传播,而不需要在层(l = 1,2,…,L)上显式的使用 for-loop(或任何其他显式迭代循环),正确吗?)

【 】 True(正确) 【 】 False(错误)

答案

【★】 False(错误)

Note: We cannot avoid the for-loop iteration over the computations among layers.(请注意:在层间
计算中,我们不能避免 for 循环迭代。)

?

\5. Assume we store the values for \(??^{[??]}\) in an array called layers, as follows: layer_dims = \([??_??, 4,3,2,1]\). So layer 1 has four hidden units, layer 2 has 3 hidden units and so on. Which of the following for-loops will allow you to initialize the parameters for the model?(假设我们将 \(??^{[??]}\)的值存储在名为 layers 的数组中,如下所示:layer_dims =\([??_??, 4,3,2,1]\)。 因此,第 1 层有四个隐藏单元,第 2 层有三个隐藏单元,依此类推。您可以使用哪个 for 循环初始化模型参 数?)

答案

for(i in range(1, len(layer_dims))):

parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i- 1])) * 0.01

parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01

?

\6. Consider the following neural network.(下面关于神经网络的说法正确的是:)

【 】The number of layers?? is 4. The number of hidden layers is 3.(层数??为 4,隐藏层数为 3)

答案

显然

Note: The input layer (?? [0] ) does not count.(注意:输入层(?? [0])不计数。)

As seen in lecture, the number of layers is counted as the number of hidden layers + 1. The input and
output layers are not counted as hidden layers.(正如视频中所看到的那样,层数被计为隐藏层数
+1。输入层和输出层不计为隐藏层。)

?

\7. During forward propagation, in the forward function for a layer ?? you need to know what is the activation function in a layer (Sigmoid, tanh, ReLU, etc.). During backpropagation, the corresponding backward function also needs to know what is the activation function for layer ??, since the gradient depends on it. True/False?(在前向传播期间,在层??的前向传播函数中, 您需要知道层??中的激活函数(Sigmoid,tanh,ReLU 等)是什么, 在反向传播期间,相应 的反向传播函数也需要知道第??层的激活函数是什么,因为梯度是根据它来计算的,正确吗?)

【 】 True(正确) 【 】False(错误)

答案

True(正确)

Note: During backpropagation you need to know which activation was used in the forward
propagation to be able to compute the correct derivative.(注:在反向传播期间,您需要知道正向传播中使用哪种激活函数才能计算正确的导数。)

?

8.There are certain functions with the following properties:(有一些函数具有以下属性:)

(i) To compute the function using a shallow network circuit, you will need a large network (where we measure size by the number of logic gates in the network), but (ii) To compute it using a deep network circuit, you need only an exponentially smaller network. True/False?((i) 使用浅网络电路计算函数时,需要一个大网络(我们通过网络中的逻辑门数量来度量大小), 但是(ii)使用深网络电路来计算它,只需要一个指数较小的网络。真/假?)

【 】True(正确) 【 】False(错误)

答案

True

Note: See lectures, exactly same idea was explained.(参见视频,完全相同的题。)

?

\9. Consider the following 2 hidden layer neural network: Which of the following statements are True? (Check all that apply).((在 2 层隐层神经网络中,下列哪个说法是正确的?只列出了正 确选项))

【 】\(??^{[1]}\) will have shape (4, 4)(\(??^{[1]}\)的维度为 (4, 4))

【 】\(??^{[1]}\) will have shape (4, 1)(\(??^{[1]}\)的维度为 (4, 1))

【 】\(??^{[2]}\) will have shape (3, 4)(\(??^{[2]}\)的维度为 (3, 4))

【 】\(??^{[2]}\) will have shape (3, 1)(\(??^{[2]}\)的维度为 (3, 1))

【 】\(??^{[3]}\) will have shape (1, 1)(\(??^{[3]}\)的维度为 (1, 1))

【 】\(??^{[3]}\) will have shape (1, 3)(\(??^{[3]}\)的维度为 (1, 3))

答案

Note: See [this image] for general formulas.(注:请参阅图片。)


?

\10. Whereas the previous question used a specific network, in the general case what is the dimension of \(??^{[1]}\) , the weight matrix associated with layer ???(前面的问题使用了一个特定的 网络,与层 ll 有关的权重矩阵在一般情况下,\(??^{[1]}\) 的维数是多少)

【 】\(??^{[1]}\) has shape (\(??^{[??]} ,??^{[???1]} )(??^{[1]}\)的维度是$ (??^{[??]} ,??^{[???1]} )$

答案

Note: See [this image] for general formulas.(注:请参阅图片。)


原文地址:https://www.cnblogs.com/phoenixash/p/12048137.html

时间: 2024-09-30 06:59:33

吴恩达《深度学习》-课后测验-第一门课 (Neural Networks and Deep Learning)-Week 4 - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络)的相关文章

吴恩达深度学习:1.2什么是神经网络

写在开头的话,本博客内容全部来自吴恩达深度学习教学课程,插图均来自吴恩达课件,在此说明来处,不喜勿喷! 一.什么是神经网络 1.我们从一个房屋加个预测的例子开始,假设有一个6间房间的数据集,已知房屋的面积单位是平方米或者平方英尺,已知房屋加个,现在想要找到一个函数,根据房屋面积来预测房屋价格的函数.如果有机器学习的只是,可以用线性回归得到这样的一条直线: 但是我们知道,价格永远不可能为一个负值,所以用一个直线的线性回归进行预测不太合适,我们可以在size轴将预测线弯曲一点,让他结束于0,我们所要

吴恩达深度学习课程第一课 — 神经网络与深度学习 — 第一周练习

课程一 - 神经网络和深度学习 第一周 - 深度学习简介 第 1 题 “人工智能是新电力”这个比喻指的是什么? A.人工智能为我们的家庭和办公室的个人设备供电,类似于电力. B.通过“智能电网”,人工智能正在传递新一波的电力. C.人工智能在计算机上运行,因此由电力驱动,但它让计算机做以前不可能做的事情. D.与100年前开始的电力类似,人工智能正在改变多个行业. 第 2 题 以下哪些是最近深度学习开始崛起的原因?(选2个答案) A.我们拥有了更多的计算能力 B.神经网络是一个崭新的领域. C.

吴恩达-深度学习-课程笔记-8: 超参数调试、Batch正则化和softmax( Week 3 )

1 调试处理( tuning process ) 如下图所示,ng认为学习速率α是需要调试的最重要的超参数. 其次重要的是momentum算法的β参数(一般设为0.9),隐藏单元数和mini-batch的大小. 第三重要的是神经网络的层数和学习率衰减 adam算法的三个参数一般不调整,设定为0.9, 0.999, 10^-8. 注意这些直觉是ng的经验,ng自己说了,可能其它的深度学习研究者是不这么认为的. 那么如何选择参数呢?下面介绍两个策略,随机搜索和精细搜索. 早一代的机器学习算法中,如下

吴恩达深度学习课程第二课-改善深层神经网络

第一周 深度学习的实用层面 1.1 训练,配置,测试训练集 学习完如何构建神经网络,接下来学习如何高效运行神经网络 数据集划分: train,dev,test: 在train中训练模型,利用dev选择最佳模型,利用test测试最终模型 1.2 偏差Bias,方差Variance 欠拟合(高偏差),过拟合(高方差) 1.3 处理欠拟合,过拟合方案 1.4 正则化Regularization 原文地址:https://www.cnblogs.com/nrocky/p/12114269.html

吴恩达-深度学习-课程笔记-6: 深度学习的实用层面( Week 1 )

1 训练/验证/测试集( Train/Dev/test sets ) 构建神经网络的时候有些参数需要选择,比如层数,单元数,学习率,激活函数.这些参数可以通过在验证集上的表现好坏来进行选择. 前几年机器学习普遍的做法: 把数据分成60%训练集,20%验证集,20%测试集.如果有指明的测试集,那就用把数据分成70%训练集,30%验证集. 现在数据量大了,那么验证集和数据集的比例会变小.比如我们有100w的数据,取1w条数据来评估就可以了,取1w做验证集,1w做测试集,剩下的用来训练,即98%的训练

吴恩达-深度学习-课程笔记-7: 优化算法( Week 2 )

1 Mini-batch梯度下降 在做梯度下降的时候,不选取训练集的所有样本计算损失函数,而是切分成很多个相等的部分,每个部分称为一个mini-batch,我们对一个mini-batch的数据计算代价,做完梯度下降,再对下一个mini-batch做梯度下降.比如500w个数据,一个mini-batch设为1000的话,我们就做5000次梯度下降(5000个mini-batch,每个mini-batch样本数为1000,总共500w个样本). 对于batch梯度下降(每次计算所有的样本),随着迭代

吴恩达 深度学习笔记+作业 (一)

1.1.2 Building basic functions with numpy 1.1.2.2 numpy.exp, sigmoid, sigmoid gradient import numpy as np def sigmoid(x): s = 1/(1+np.exp(-x)) return s # 设sigmoid为s, s' = s*(1-s) def sigmoid_derivative(x): s = 1/(1+np.exp(-x)) ds = s*(1-s) return ds

吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application

应用ML是一个高度迭代的过程 Idea->Code->Experment->... 去不断地调整超参数. Train/Dev/Test sets 通常将数据集划分为Train/Dev/Test集. Training set: 用于模型的训练 Hold-out cross validation set/Developmet set: 用于测试,调整模型超参数 Test set: 用于最终评估 以前的ML问题:数据规模在w级,通常70/30划分Train/Test集或者60/20/20比例划

吴恩达深度学习笔记(deeplearning.ai)之卷积神经网络(二)

经典网络 LeNet-5 AlexNet VGG Ng介绍了上述三个在计算机视觉中的经典网络.网络深度逐渐增加,训练的参数数量也骤增.AlexNet大约6000万参数,VGG大约上亿参数. 从中我们可以学习到: 随着网络深度增加,模型的效果能够提升. 另外,VGG网络虽然很深,但是其结构比较规整.每经过一次池化层(过滤器大小为2,步长为2),图像的长度和宽度折半:每经过一次卷积层,输出数据的channel数量加倍,即卷积层中过滤器(filter)的数量. 残差网络(ResNet) 由于存在梯度消