斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时26&&27

课时26 图像分割与注意力模型(上)

语义分割:我们有输入图像和固定的几个图像分类,任务是我们想要输入一个图像,然后我们要标记每个像素所属的标签为固定数据类中的一个

使用卷积神经,网络为每个小区块进行分类,对在区块的中间打上标签,对图像的全部区块分类完毕,我们就可以得到每个像素所对应的标签,这个操作实际上非常耗时,因为一张图片将会被分割非常多的小块。

如果这些神经网络具有相关的结构,通过这个图像金字塔方法的话,这些图像的输出将会有不同的感受野。

语义分割的迭代精化

我们有一个输入图像,他们被分割成三个通道,我们把输出从卷积神经网络中拿出来,同时把对应的下采样版本的图像拿出来。然后我们再重复这一过程,所以这个过程,其实是有点增加输出有效的感受野,同时也对输入图像有更多的处理。

即时分割或者实时检测和分割:我们有一些分类需要去识别,给定一张图像需要输出对应图像的不同分类实例,而分实例我们也需要分割到具体每个像素是属于哪个实例。

实例分割

我们给他一副输入图像,CNN还要依赖于外部的候选区域,就是计算机视觉中低层次信息得离线处理操作,预测物体在图像中的具体的位置。每个分割候选我们可以抽取出一个bounding box,来提取边界框裁剪输入图像,喂给卷积神经网络去抽取特征,同时并行的执行RCNN,再一次我们拿到相应的块图像,进行裁剪,但这里我们实际上有候选的分割,我们为图像区域背景使用平均颜色做掩码,现在我们拿到这些掩过的输入图像并运行在独立的RCNN中,我们得到两个特征向量,一个是从原始图像框来的,而另一个是去除了背景颜色的图像框,我们把这两个结果联合起来就是我们在CNN做的一样,预测这个图像是属于哪个分类,同时还有一个区域细化的步骤,如果我们想要细化候选区域的话

课时27 图像分割与注意力模型(下)

语义分析通常使用这种深度卷积的实现方式,而实例分割使用的一整个处理流程更像是物体检测

RNN只有一次机会去看输入图像,当他开始工作时,他是把整个图像作为输入的,并且只操作一次,如果他们可以看输入图像多次,这可能会更好,或者他每次曹锁时可以关注到原始的输入图像的不同部分也是更好的。

我们有一个输入图像,并把他喂给卷积神经网络,但是代替原来使用全连接层,我们改使用全卷积层来抽取特征,这将给予我们L*D的特征,而不是原来的单特征向量,因为这个是从卷积层来的。你可以想象他是2D的特征向量,在这个2D向量中的每一个,特征都对应了原始输入图像的某一部分。现在我们用这些特征以某种方式来初始化神经网络的隐层,他现在是计算分布的不同位置,在我们的卷积特征图中,我们最终得到这个L维向量,给予我们一个不同位置可能的分布,现在我们拿着这个概率分布并且拿着他去得到这些特征向量在不同点的权重和,所以我们拿到这个特征权重的合集,然后拿着我们的2D向量并对之进行汇总到一个单向量,由于概率分布,给予了网络予能力去聚集图像的不同部分。

概率分布,我们每次生成两种类型的概率分布,第一个是D向量,就像我们在普通的图片处理一样;第二个就是也会生成一个在原图中位置的概率分布,他们告诉我们下一次我们要看图片的哪个部分。

使用注意力的两个动机

首先使用注意力模型,可以得到可解释的结果;另一个动机是可以缓解计算压力,特别是你的输入非常非常大的时候,你可能需要大量计算,并且每次计算都是输入整个图像,如果使用注意力模型,每次只需要关注需要关注的那一块

hard attention有做计算保存,并且使用的强学习化。

soft attention这个模型的特征图有点固定限制,他只允许以一种固定大小的网络去看。

空间变换网络

有点像纹理映射。这个网络允许我们在输入图像中访问任意大小的部分以一种可微的方式,我们的网络只需要预测转换坐标数据,这个就可以允许我们以任意大小区域去访问输入图像。

空间转换器接受一些输入,这可以是一个原始的输入图像,实际上执行了这个小的本地化网络,将会生成输出作为一个仿射变换坐标的数据。现在这个仿射变换坐标将会被用来计算采样网络,现在我们从本地化网络中预测这个仿射变换,我们映射输出中的每一个像素,输出中每一个像素的坐标把他作为一个输入,这是一个很好的平滑可微的函数。一旦我们有了这个采样网络,我们可以使用双线性插值,去计算输出中每个像素的值。

时间: 2024-10-20 12:23:56

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时26&&27的相关文章

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时8&&9

课时8 反向传播与神经网络初步(上) 反向传播在运算连路中,这是一种通过链式法则来进行递推的计算过程,这个链路中的每一个中间变量都会对最终的损失函数产生影响. 链式法则通常包含两部分,局部梯度和后一层的梯度相乘 前向和反向花费的时间是基本一样的. 大的函数也可以直接视作一个整体计算梯度 当局部梯度非常容易求得时,你可以把这部分表达式看作一整个S门 加法:梯度分配器:所以无论何时当你有一个加法运算时,他会分配相等的梯度值. 最大值门:一个梯度路由,他的工作方式是,认为比较大的输入梯度为1,比较小的

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时24&&25

课时24 深度学习开源库使用介绍(上) Caffe 被用于重新实现AlexNet,然后用AlexNet的特征来解决其他事情 用C++书写的,可以去GitHub上面读取源代码 主要四个类: Blob可以存你的权重,像素值,激活等,是n维的张量,就像NumPy一样,他实际上内部有四个n维张量,这个张量有一个数据的版本,用于存储原始未处理的数据.剩下三个分别有diffs,GPU,CPU: 层是一种与你作业中所需要实现的功能相似的功能,会接收输入的Blob,caffe管这些输入的Blob称为底端输入,然

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13

课时12 神经网络训练细节part2(上) 训练神经网络是由四步过程组成,你有一个完整的数据集图像和标签,从数据集中取出一小批样本,我们通过网络做前向传播得到损失,告诉我们目前分类效果怎么样.然后我们反向传播来得到每一个权重的梯度,这个梯度告诉我们如何去调整每一个权重,最终我们能够更好的分类图片. 为什么要使用激活函数? 如果在整个的神经网络中不使用激活函数,你的网络的分类能力基本等同于一个线性分类器,所以激活函数是相当关键的.他提供了所有的方法,你可以他用来存储数据 BN使得网络的训练更加健壮

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时14&&15

课时14 卷积神经网络详解(上) CNN处理的是一些数据块,在这之间有很多层,一系列的层将输入数据变换为输出数据,所以完成操作的中间量不仅是NN时候讲的那些向量,而是立体结构,有宽,高和深度,在整个计算过程中要保持这些三维特征.这里的深度指的是一个数据体的第三个维度. 工作流程 我们得到一些数据,作为网络的输入,在CNN中我们有这样的滤波器,假设现在我们只有一个滤波器,这些滤波器空间维度很小,我们用这个滤波器来和输入图像做卷积运算.这里的卷积运算,意思是说滤波器要在这个图像的空域范围内全部位置滑

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

课时6 线性分类器损失函数与最优化(上) 多类SVM损失:这是一个两分类支持向量机的泛化 SVM损失计算了所有不正确的例子,将所有不正确的类别的评分,与正确类别的评分之差加1,将得到的数值与0作比较,取两者中的最大值.然后将所有的数值进行求和.用平均值来代替不会影响结果. 这些评分都是无标度的,因为我们可以随便选择W,让它成比例地增大或者减小,然后分数也随之成比例地变化.所以分数的大小和它的量度的选择紧密相关,将安全系数的值设为1在某种程度上来说只是一个随意的选择. 在实际的数据集中使用这个损失

深度学习与计算机视觉(12)_tensorflow实现基于深度学习的图像补全

原文地址:Image Completion with Deep Learning in TensorFlow by Brandon Amos 原文翻译与校对:@MOLLY && 寒小阳 ([email protected]) 时间:2017年4月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396 声明:版权所有,转载请联系作者并注明出 简介 第一步:将图像理解为一个概率分布的样本 你是怎样补全缺失信息的呢? 但是怎

斯坦福大学深度学习与自然语言处理第一讲:引言

斯坦福大学在三月份开设了一门"深度学习与自然语言处理"的课程:CS224d: Deep Learning for Natural Language Processing ,授课老师是青年才俊Richard Socher,他本人是德国人,大学期间涉足自然语言处理,在德国读研时又专攻计算机视觉,之后在斯坦福大学攻读博士学位,拜师NLP领域的巨牛 Chris Manning和Deep Learning 领域的巨牛 Andrew Ng ,其博士论文是< Recursive Deep Le

斯坦福大学深度学习与自然语言处理第一讲

我学习自然语言是从Christopher D.Manning的统计自然语言处理基础这本书开始的,很多文本分析也是应用统计方法,或者机器学习的方法,而近年来深度学习逐渐渗入各个领域,其在自然语言处理领域中也取得了令人惊叹的效果,这成功的引起了我的重视,决定学习一下.何其所幸,让我找到了斯坦福大学深度学习与自然语言的课程,深得我心啊,所以打算好好学习一下,鉴于我爱自然语言处理中有相关课程的slides,我就直接复制粘贴了,接下来打算做的工作是对该课程中推荐阅读的部分论文做一些笔记.本人才疏学浅,专业

斯坦福大学深度学习与自然语言处理第二讲

第二讲:简单的词向量表示:word2vec, Glove(Simple Word Vector representations: word2vec, GloVe) 转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn 本文链接地址:斯坦福大学深度学习与自然语言处理第二讲:词向量 推荐阅读材料: Paper1:[Distributed Representations of Words and Phrases and their Compositionality]]