机器学习中使用的神经网络第四讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第四讲主要介绍如何使用back propagation算法来学习到词汇的特征表示。

Learning to predict the next word

接下来的几小节主要介绍如何使用back propagation算法来学习到词汇的特征表示。我们从一个很简单的例子开始,介绍使用back propagation算法来将词汇间的相关信息转换成特征向量。

下图给出了一个家庭的树状图,我们要做的就是让神经网络去理解树状图中的信息,将其中的信息翻译成一个个命题,如下面第二张图所示。

现在的关系学习任务是从类似上图中的由树状图中得到的三元关系得到规律性的东西,一个典型的表示方法如下图红色字体所示。要知道,从树状图中搜索这种典型的规律是一个很困难的事情,因为搜索空间是离散的。一个与众不同的方法是使用神经网络来搜索权值的连续实数域,从而尝试从树状图中提取到类似的关系表示。

如果神经网络能够根据三元组信息的前两个信息元素预测出第三个信息元素,我们就说神经网络能从树状图中提取到信息。下图是神经网络的一个示意图,底部为输入,顶部为输出。在底部,我们输入一个人名p1和一种关系R;在顶部,输出则是神经网络找到的与p1有着关系R的人名p2。

现在我们需要做的是对信息以一种中性(不加感情色彩)的方式进行编码。因为前面给出的家庭关系树状图例子中有24个人,所以,在流程图的底部会产生24个neuron,每一个person one对应24个人中的一个。类似的这里应该有12个neuron对应着12个不同的关系,对于给定的person one和relationship神经网络应该有唯一的输出。当然,比如说图中没有给出Christopher的mother,那神经网络给出的答案肯定是错的。

这里截图一下视频中的小测试,我认为还是值得思考的。

我们使用类似小测试中的编码方法,最大程度的减少因编码问题而造成的人物之间的相似度信息,这样神经网络应该就不会得到由不当编码而暗含的关系信息(we’re not cheating by giving the network information about who’s like who)。就是说,对于神经网络而言,人物编码只是一组没有任何意义的标志。

在神经网络的第二层,我们已经得到了the local encoding of person one,然后将其与24个neuron的一个子集联系起来,在这个例子中这个集合的大小为6(一个人最多有6个关系),神经网络需要针对这6个neuron对person one进行re-represent。下图是神经网络得到的信息(具体如何得来的后面课程会介绍),用24维的二元向量来表示每一个人,下面给出了6个unit,上面一行代表英国人,下面一行代表意大利人。仔细观察发现,右侧第一个的第一行全为positive(黑色),第二行全为negative(白色),说明学习到了这十二个人全是英国人;右侧第二个学习到了辈分,辈分最高的人全对应中等大小的方块,辈分第二的人全对应的是最小的方块,辈分最小的人全对应最大的方块;左侧最后一个学习到了分支,标记为negative(白色)的人全都在树状图的有分支,标记为positive(黑色)的人全都在树状图的左分支。(这里是按照应该人一组说明的,对意大利人是一样的)可以看到,神经网络自动的从树状图中挖掘到了一些隐含的信息。

下面两张图告诉我们神经网络学到了什么。

对于大规模问题,下图给出了建议。

这一小节不太懂,希望学过的同学分享一下你们的理解。

A brief diversion into cognitive science

Another diversion: The softmax output function

Neuron-probabilistic language models

Ways to deal with the large number of possible outputs

时间: 2024-09-30 00:27:46

机器学习中使用的神经网络第四讲笔记的相关文章

机器学习中使用的神经网络第六讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第六讲介绍了随机梯度下降法(SGD),并且介绍了加快学习速度的动量方法(the momentum method).针对网络中每一个连接的自适应学习步长(adaptive learning rates for each connection)和RMSProp算法. 这几个算法的难度很大,需要反复推理思考,并在实践中摸索以加深理解. Overview of mini-batch gradie

机器学习中使用的神经网络第十讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第十讲介绍了如何combine模型,并进一步从实际应用的角度介绍了完全贝叶斯方法. Why it helps to combine models 这一小节,我们讨论在做预测时为什么要结合许多模型.使用多个模型可以在拟合真正的规则和拟合样本错误之间做一个很好的折中. 我们已经知道,当训练数据比较少时容易出现过拟合,如果我们平均一下许多不同模型的预测,那我们就可以降低过拟合的程度.对于回归来

机器学习中使用的神经网络第七讲

这一节主要介绍了RNN和LSTM. Modeling sequences: A brief overview 在这一小节,我们将对应用于序列(sequences)的不同类型的模型做一个概括.我们从最简单的模型--ultra aggressive models(该模型尝试根据前一个序列(term or sequence)去预测下一个序列)开始,接着再讨论该模型使用了隐含层的复杂变形,然后再介绍更多有着hidden state和hidden dynamics的模型(这其中包含了linear dyna

机器学习基石第四讲笔记

第四讲介绍了机器学习是否可行的问题. 1. 从给定的资料D中,找出一个接近目标f的假设g是可行的.比如PLA.但是,找到的这个g能否用于D以外的地方,这就难说了. 2. Hoeffding's inequality回答了g是否能用于D以外的问题: (1)In probability theory, Hoeffding's inequality provides an upper bound on the probability that the sum of random variables d

机器学习中使用的神经网络(七)

A geometrical view of perceptron 感知器的几何视图 Weight-space 权值空间 在这个空间中,每一个感知器中的权值都表示一维,而空间中的一点则代表了所有权值的特定集合,假设消除阈值,则每个训练样本都可以看做通过起点的超平面.So, points in the space correspond to weight vectors and training cases correspond to planes. 也就是说,空间中的点对应权值向量,超平面则对应训

机器学习中使用的神经网络第九讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第八讲为可选部分,好像很难,这里就先跳过了,以后有用的时候再回来补.第九讲介绍了如何避免过拟合,提高模型的泛化能力. 这是Cousera上的课程链接 Overview of ways to improve generalization 这一小节,我们介绍如何在网络有过多能力处理过多容量的训练数据集时,如何通过降低过拟合来提高网络模型的泛化能力.下面将介绍几种控制网络容量的方法,以及如何设

机器学习中使用的神经网络(四)

机器学习的一个简单例子 It is a very simple kind of NeuralNet and it is gonna be learning to recognize digits and you gonna be able to see how the weights  evolved as we run a very simple learning algorithm. A very simple learning algorithm for traing a very sim

机器学习中使用的神经网络第五讲笔记

Geoffery Hinton教授的Neuron Networks for Machine Learning的第五讲主要介绍物体识别问题的难点及克服这些难点的方法,重点介绍了数字识别和物体识别中使用的卷积网络. Why object recognition is difficult 我们知道识别真实场景中的物体是很困难的,这一小节我们来介绍造成这些困难的一些东西. Segmentation: 在一个图像中,我们很难将其中的一个物体与其他的物体分隔开.在现实生活中,我们人类有两只眼睛且我们身体可以

机器学习中使用的神经网络(一)

本系列博客根据Geoffrey Hinton课程Neural Network for Machine Learning总结. 课程网址为: https://www.coursera.org/course/neuralnets 1.Some examples of tasks best solved by learning 机器学习最适用的领域举例 - Recognizing patterns: 模式识别– Objects in real scenes 物体识别 – Facial identiti