吴恩达《深度学习》-课后测验-第五门课 序列模型(Sequence Models)-Week 1: Recurrent Neural Networks(第一周测验:循环神经网络)

Week 1 Quiz: Recurrent Neural Networks(第一周测验:循环神经网络)

\1. Suppose your training examples are sentences (sequences of words). Which of the following refers to the jth word in the ith training example?( 假设你的训练样本是句子(单词序列),下 面哪个选项指的是第??个训练样本中的第??个词?)

【 】 $??^{(??)} $

【 】 \(??^{<??>(??) }\)

【 】 \(??^{(??)<??>}\)

【 】 \(??^{<??>(??)}\)

答案

【★】 ??(??)
(注:首先获取第??个训练样本(用括号表示),然后到??列获取单词(用括尖括号表示)。)

?

\2. Consider this RNN: This specific type of architecture is appropriate when: (看一下下面的这 个循环神经网络:在下面的条件中,满足上图中的网络结构的参数是)

【 】$??_?? = ??_?? $

【 】 $??_?? < ??_?? $

【 】\(??_?? > ??_??\)

【 】$ ??_?? = 1 $

答案

【★】???? = ????

?

\3. To which of these tasks would you apply a many-to-one RNN architecture? (Check all that apply). (上图中每一个输入都与输出相匹配。 这些任务中的哪一个会使用多对一的 RNN 体 系结构?)

【 】 Speech recognition (input an audio clip and output a transcript) (语音识别(输入语音, 输出文本)。)

【 】 Sentiment classification (input a piece of text and output a 0/1 to denote positive or negative sentiment) (情感分类(输入一段文字,输出 0 或 1 表示正面或者负面的情绪)。)

【 】Image classification (input an image and output a label) (图像分类(输入一张图片,输出 对应的标签)。)

【 】 Gender recognition from speech (input an audio clip and output a label indicating the speaker’s gender) (人声性别识别(输入语音,输出说话人的性别)。)

答案

【★】 Sentiment classification (input a piece of text and output a 0/1 to denote positive or
negative sentiment) (情感分类(输入一段文字,输出 0 或 1 表示正面或者负面的情绪)。)

【★】 Gender recognition from speech (input an audio clip and output a label indicating the
speaker’s gender) (人声性别识别(输入语音,输出说话人的性别)。)

?

\4. You are training this RNN language model.

At the \(??^{th}\) time step, what is the RNN doing? Choose the best answer.( 假设你现在正在训练下面 这个 RNN 的语言模型: 在??时,这个 RNN 在做什么?)

【 】 Estimating ??(\(??^{<1>}, ??^{<2>},… , ??^{<???1>}\))( 计算 ??(\(??^{<1>}, ??^{<2>},… , ??^{<???1>}\)) )

【 】 Estimating ??(\(??^{<??>}\)) (计算 ??(\(??^{<??>}\)) )

【 】Estimating \(??(?? ∣ ??^{<1>}, ??^{<2>},… , ??^{<??>})\) ( 计算 \(??(?? ∣ ??^{<1>}, ??^{<2>},… , ??^{<??>})\))

【 】Estimating \(??(?? ∣ ??^{<1>}, ??^{<2>}, … , ??^{<???1>})\)( 计算 \(??(?? ∣ ??^{<1>}, ??^{<2>}, … , ??^{<???1>})\))

答案

Yes,in a language model we try to predict the next step based on the knowledge of all prior
steps

【★】Estimating ??(?? ∣ ??
, ??
,… , ??
) ( 计算 ??(?? ∣ ??
, ??
, … , ??
) )

?

\5. You have finished training a language model RNN and are using it to sample random sentences, as follows: What are you doing at each time step ???( 你已经完成了一个语言模型 RNN 的训练,并用它来对句子进行随机取样,如下图: 在每个时间步??都在做什么?)

【 】Use the probabilities output by the RNN to pick the highest probability word for that time-step as \(??^{<??>}\). (ii) Then pass the ground-truth word from the training set to the next timestep. ((1)使用 RNN 输出的概率,选择该时间步的最高概率单词作为\(??^{<??>}\),(2)然后将训练集中 的正确的单词传递到下一个时间步。)

【 】Use the probabilities output by the RNN to randomly sample a chosen word for that time-step as \(??^{<??>}\). (ii) Then pass the ground-truth word from the training set to the next timestep. ((1)使用由 RNN 输出的概率将该时间步的所选单词进行随机采样作为 \(??^{<??>}\),(2)然后将训 练集中的实际单词传递到下一个时间步。)

【 】Use the probabilities output by the RNN to pick the highest probability word for that time-step as \(??^{<??>}\). (ii) Then pass this selected word to the next time-step. ((1)使用由 RNN 输出 的概率来选择该时间步的最高概率词作为 \(??^{<??>}\),(2)然后将该选择的词传递给下一个时间步。)

【 】 Use the probabilities output by the RNN to randomly sample a chosen word for that time-step as \(??^{<??>}\). (ii) Then pass this selected word to the next time-step. ((1)使用 RNN 该时间 步输出的概率对单词随机抽样的结果作为\(??^{<??>}\),(2)然后将此选定单词传递给下一个时间步。)

答案

【★】 (i) Use the probabilities output by the RNN to randomly sample a chosen word for that
time-step as ??
. (ii) Then pass this selected word to the next time-step. ((1)使用 RNN 该时间
步输出的概率对单词随机抽样的结果作为??
,(2)然后将此选定单词传递给下一个时间步。)

?

\6. You are training an RNN, and find that your weights and activations are all taking on the value of NaN (“Not a Number”). Which of these is the most likely cause of this problem?

【 】 Vanishing gradient problem. (梯度消失。)

【 】Exploding gradient problem. (梯度爆炸。)

【 】 ReLU activation function g(.) used to compute g(z), where z is too large. (ReLU 函数作为 激活函数??(. ),在计算??(??)时,??的数值过大了。)

【 】 Sigmoid activation function g(.) used to compute g(z), where z is too large. (Sigmoid 函数 作为激活函数??(. ),在计算??(??)时,??的数值过大了。)

答案

【★】Exploding gradient problem. (梯度爆炸。)

?

7.Suppose you are training a LSTM. You have a 10000 word vocabulary, and are using an LSTM with 100-dimensional activations a. What is the dimension of Γu at each time step?( 假设你正 在训练一个 LSTM 网络,你有一个 10,000 词的词汇表,并且使用一个激活值维度为 100 的 LSTM 块,在每一个时间步中,????的维度是多少?)

【 】 1

【 】 100

【 】300

【 】 10000

答案

【★ 】 100

(注: ????的向量维度等于 LSTM 中隐藏单元的数量。)

?

\8. Here’re the update equations for the GRU. Alice proposes to simplify the GRU by always removing the \(??_??\). I.e., setting \(??_??\) = 1. Betty proposes to simplify the GRU by removing the \(??_??\) . I. e., setting \(??_??\)=1 always. Which of these models is more likely to work without vanishing gradient problems even when trained on very long input sequences?( 这里有一些 GRU 的更新方程: 爱丽丝建议通过移除\(??_??\)来简化 GRU, 即设置\(??_??\) = 1。贝蒂提出通过移除\(??_??\)来简化 GRU,即设置\(??_??\)=1。哪种模型更容易在梯度不消失问题的情况下训练,即使在很长的输入序列上也可以进行训练?)

【 】 Alice’s model (removing \(??_??\)), because if \(??_??\) ≈ 0 for a timestep, the gradient can propagate back through that timestep without much decay. (爱丽丝的模型(即移除 ????),因为对于一个 时间步而言,如果???? ≈ 0,梯度可以通过时间步反向传播而不会衰减。)

【 】Alice’s model (removing ????), because if ???? ≈ 1 for a timestep, the gradient can propagate back through that timestep without much decay. (爱丽丝的模型(即移除 ????),因为对于一个 时间步而言,如果???? ≈ 1,梯度可以通过时间步反向传播而不会衰减。)

【 】 Betty’s model (removing ???? ), because if ??u ≈ 0 for a timestep, the gradient can propagate back through that timestep without much decay. (贝蒂的模型(即移除????),因为对于一个时间 步而言,如果??u ≈ 0,梯度可以通过时间步反向传播而不会衰减。)

【 】Betty’s model (removing ???? ), because if ??u ≈ 1 for a timestep, the gradient can propagate back through that timestep without much decay. (贝蒂的模型(即移除????),因为对于一个时 间步而言,如果??u ≈ 1,梯度可以通过时间步反向传播而不会衰减。)

答案

【★ 】 Betty’s model (removing ????
), because if ??u ≈ 0 for a timestep, the gradient can propagate
back through that timestep without much decay. (贝蒂的模型(即移除????),因为对于一个时间
步而言,如果??u ≈ 0,梯度可以通过时间步反向传播而不会衰减。)

(注:要使信号反向传播而不消失,我们需要??
高度依赖于??
。)

?

\9. Here are the equations for the GRU and the LSTM: From these, we can see that the Update Gate and Forget Gate in the LSTM play a role similar to _ and __ in the GRU. What should go in the the blanks?( 这里有一些 GRU 和 LSTM 的方程: 从这些 我们可以看到,在 LSTM 中的更新门和遗忘门在 GRU 中扮演类似___与___的角色,空白处应该 填什么?)

【 】???? 与 1 ? ???? (???? 与 1 ? ???? )

【 】????与 ???? (????与 ???? )

【 】1 ? ???? 与???? (1 ? ???? 与???? )

【 】???? 与???? (???? 与???? )

答案

【★】???? 与 1 ? ???? (???? 与 1 ? ???? )

?

\10. You have a pet dog whose mood is heavily dependent on the current and past few days’ weather. You’ve collected data for the past 365 days on the weather, which you represent as a sequence as \(??^{<1>},… , ??^{<365>}\). You’ve also collected data on your dog’s mood, which you represent as \(??^{<1>}, … , ??^{<365>}\). You’d like to build a model to map from x→y. Should you use a Unidirectional RNN or Bidirectional RNN for this problem?( 你有一只宠物狗,它的心情很大 程度上取决于当前和过去几天的天气。你已经收集了过去 365 天的天气数据 \(??^{<1>},… , ??^{<365>}\),这些数据是一个序列,你还收集了你的狗心情的数据\(??^{<1>}, … , ??^{<365>}\),你想建立一个模型来从??到??进行映射,你应该使用单向 RNN 还是双向 RNN 来解决这个问 题?)

【 】Bidirectional RNN, because this allows the prediction of mood on day ?? to take into account more information. (双向 RNN,因为在??日的情绪预测中可以考虑到更多的信息。)

【 】 Bidirectional RNN, because this allows backpropagation to compute more accurate gradients.( 双向 RNN,因为这允许反向传播计算中有更精确的梯度。)

【 】 Unidirectional RNN, because the value of \(??^{<??>}\) depends only on \(??^{<1>},… , ??^{<??>}\) ,but not on \(??^{<??+1>},… , ??^{<365>}\) (单向 RNN,因为\(??^{<??>}\)的值仅依赖于\(??^{<1>},… , ??^{<??>}\),而不依赖于 \(??^{<??+1>},… , ??^{<365>}\)。)

【 】Unidirectional RNN, because the value of \(??^{<??>}\) depends only on \(??^{<??>}\), and not other days’ weather.( 单向 RNN,因为\(??^{<??>}\)的值只取决于\(??^{<??>}\),而不是其他天的天气。)

答案

【★】 Unidirectional RNN, because the value of ??
depends only on ??
,… , ??
,but not on
??
,… , ??
(单向 RNN,因为??
的值仅依赖于??
,… , ??
,而不依赖于
??
,… , ??
。)

?

原文地址:https://www.cnblogs.com/phoenixash/p/12236960.html

时间: 2024-10-12 20:17:21

吴恩达《深度学习》-课后测验-第五门课 序列模型(Sequence Models)-Week 1: Recurrent Neural Networks(第一周测验:循环神经网络)的相关文章

吴恩达深度学习:1.2什么是神经网络

写在开头的话,本博客内容全部来自吴恩达深度学习教学课程,插图均来自吴恩达课件,在此说明来处,不喜勿喷! 一.什么是神经网络 1.我们从一个房屋加个预测的例子开始,假设有一个6间房间的数据集,已知房屋的面积单位是平方米或者平方英尺,已知房屋加个,现在想要找到一个函数,根据房屋面积来预测房屋价格的函数.如果有机器学习的只是,可以用线性回归得到这样的一条直线: 但是我们知道,价格永远不可能为一个负值,所以用一个直线的线性回归进行预测不太合适,我们可以在size轴将预测线弯曲一点,让他结束于0,我们所要

吴恩达深度学习课程第一课 — 神经网络与深度学习 — 第一周练习

课程一 - 神经网络和深度学习 第一周 - 深度学习简介 第 1 题 “人工智能是新电力”这个比喻指的是什么? A.人工智能为我们的家庭和办公室的个人设备供电,类似于电力. B.通过“智能电网”,人工智能正在传递新一波的电力. C.人工智能在计算机上运行,因此由电力驱动,但它让计算机做以前不可能做的事情. D.与100年前开始的电力类似,人工智能正在改变多个行业. 第 2 题 以下哪些是最近深度学习开始崛起的原因?(选2个答案) A.我们拥有了更多的计算能力 B.神经网络是一个崭新的领域. C.

吴恩达-深度学习-课程笔记-6: 深度学习的实用层面( Week 1 )

1 训练/验证/测试集( Train/Dev/test sets ) 构建神经网络的时候有些参数需要选择,比如层数,单元数,学习率,激活函数.这些参数可以通过在验证集上的表现好坏来进行选择. 前几年机器学习普遍的做法: 把数据分成60%训练集,20%验证集,20%测试集.如果有指明的测试集,那就用把数据分成70%训练集,30%验证集. 现在数据量大了,那么验证集和数据集的比例会变小.比如我们有100w的数据,取1w条数据来评估就可以了,取1w做验证集,1w做测试集,剩下的用来训练,即98%的训练

吴恩达-深度学习-课程笔记-7: 优化算法( Week 2 )

1 Mini-batch梯度下降 在做梯度下降的时候,不选取训练集的所有样本计算损失函数,而是切分成很多个相等的部分,每个部分称为一个mini-batch,我们对一个mini-batch的数据计算代价,做完梯度下降,再对下一个mini-batch做梯度下降.比如500w个数据,一个mini-batch设为1000的话,我们就做5000次梯度下降(5000个mini-batch,每个mini-batch样本数为1000,总共500w个样本). 对于batch梯度下降(每次计算所有的样本),随着迭代

吴恩达-深度学习-课程笔记-8: 超参数调试、Batch正则化和softmax( Week 3 )

1 调试处理( tuning process ) 如下图所示,ng认为学习速率α是需要调试的最重要的超参数. 其次重要的是momentum算法的β参数(一般设为0.9),隐藏单元数和mini-batch的大小. 第三重要的是神经网络的层数和学习率衰减 adam算法的三个参数一般不调整,设定为0.9, 0.999, 10^-8. 注意这些直觉是ng的经验,ng自己说了,可能其它的深度学习研究者是不这么认为的. 那么如何选择参数呢?下面介绍两个策略,随机搜索和精细搜索. 早一代的机器学习算法中,如下

吴恩达 深度学习笔记+作业 (一)

1.1.2 Building basic functions with numpy 1.1.2.2 numpy.exp, sigmoid, sigmoid gradient import numpy as np def sigmoid(x): s = 1/(1+np.exp(-x)) return s # 设sigmoid为s, s' = s*(1-s) def sigmoid_derivative(x): s = 1/(1+np.exp(-x)) ds = s*(1-s) return ds

吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application

应用ML是一个高度迭代的过程 Idea->Code->Experment->... 去不断地调整超参数. Train/Dev/Test sets 通常将数据集划分为Train/Dev/Test集. Training set: 用于模型的训练 Hold-out cross validation set/Developmet set: 用于测试,调整模型超参数 Test set: 用于最终评估 以前的ML问题:数据规模在w级,通常70/30划分Train/Test集或者60/20/20比例划

吴恩达深度学习课程第二课-改善深层神经网络

第一周 深度学习的实用层面 1.1 训练,配置,测试训练集 学习完如何构建神经网络,接下来学习如何高效运行神经网络 数据集划分: train,dev,test: 在train中训练模型,利用dev选择最佳模型,利用test测试最终模型 1.2 偏差Bias,方差Variance 欠拟合(高偏差),过拟合(高方差) 1.3 处理欠拟合,过拟合方案 1.4 正则化Regularization 原文地址:https://www.cnblogs.com/nrocky/p/12114269.html

吴恩达深度学习笔记(deeplearning.ai)之卷积神经网络(二)

经典网络 LeNet-5 AlexNet VGG Ng介绍了上述三个在计算机视觉中的经典网络.网络深度逐渐增加,训练的参数数量也骤增.AlexNet大约6000万参数,VGG大约上亿参数. 从中我们可以学习到: 随着网络深度增加,模型的效果能够提升. 另外,VGG网络虽然很深,但是其结构比较规整.每经过一次池化层(过滤器大小为2,步长为2),图像的长度和宽度折半:每经过一次卷积层,输出数据的channel数量加倍,即卷积层中过滤器(filter)的数量. 残差网络(ResNet) 由于存在梯度消