Marr的视觉计算理论

?
?

????Marr的视觉计算理论立足于计算机科学,系统地概括了心理物理学、神经生理学、临床神经病理学等方面已取得的所有重要成果,是迄今为止最为系统的视觉理论。Marr 的视觉计算理论虽然在细节甚至在主导思想方面尚存在大量不完备的方面,许多方面还存有许多争议,但至今为止仍是广大计算视觉研究人员接受的基本框架。计算机视觉这门学科的形成,应该说与这一理论框架有密切的关系,下面我们从几个方面来描述这一理论框架。

  Marr 从信息处理系统的角度出发,认为视觉系统的研究应分为三个层次,即计算理论层次、表达(representation)与算法层次、硬件实现层次。

  计算理论层次要回答系统各个部分的计算目的与计算策略,亦即各部分的输入输出是什么,之间的关系是什么变换或者具有何种约束。Marr 对视觉系统的总的输入输出关系规定了一个总的目标,即输入二维图像,输出是由二维图像"重建"(reconstruction)出来的三维物体的位置与形状。Marr 认为,视觉系统的任务是对环境中三维物体进行识别、定位与运动分析,但这仅仅是一种对视觉行为(behavior)目的性定义,而非计算理论层次上的目的性定义。三维物体千差万别,应存在一种计算层次上的一般性"目的"描述,达到了这一"目的",则不管是什么具体的物体,视觉任务均可完成。Marr 认为,这一"目的",就是通过视觉系统,重建三维物体的形状和位置。而且若每个时刻都能做到这一点,那么运动分析也可以做到。对视觉系统的各个层次与模块,Marr 也初步给出了计算理论层次上的目标。

  对于表达与算法层次,视觉系统的研究应给出各部分(模块)的输入、输出和内部的信息表达,以及实现计算理论所规定的目标的算法。算法与表达有关,不同的表达方式,完成同一计算的算法会不同,但 Marr 认为,算法与表达是比计算理论低一层次的问题,不同的表达与算法,在计算理论层次是可以相同的。最后一个硬件层次,是要回答"如何用硬件实现以上的算法"。

  区分上述三个不同层次,对于深刻理解计算机视觉与生物视觉系统,以及它们之间的关系是大有裨益的,例如,人的视觉系统与目前的计算机视觉系统在"硬件实现"层次上是截然不同的,前者是极为复杂的神经网络,而后者是目前使用的计算机,但它们可能在计算理论层次上具有完全相同的功能。

  目前的计算机视觉的研究工作主要集中在前两个层次上,即计算理论,表达于算法层次,对于硬件实现,目前只有比较成熟的部分,如低层次处理中的噪声去除,边缘抽取;对于简单二维物体识别及简单场景下的视觉方法,已有专门芯片或其它并行处理体系结构方面的研究与试验产品;从系统上构造一般的视觉系统,虽有一些尝试,但一般并不成功。

  Marr 认为视觉是一个信息处理过程。这个过程根据外部世界的图像产生对观察者有用的描述。这些描述依次由许多不同但固定的、每个都记录了外界的某方面特征的表象(representation)所构成或组合而成。一种新的表象之所以提高了一步是因为新的表象表达了某种信息,而这种信息将便于对信息作进一步解释。按这种逻辑来思考可得到这样的结论:即在对数据作进一步解释以前我们需要关于被观察物体的某些信息,这就是所谓的本征图像。

  然而,数据进入我们的眼睛是要以光线为媒介的。灰度图像中至少包含关于照明情况、观察者相对于物体位置的信息。因此,按 Marr 的方法首先要解决的问题是如何把这些因素分解开。他认为低层视觉(即视觉处理的第一阶段)的目的就是要分清哪些变化是由哪些因素引起的。大体上来说这个过程要经过两个步骤来完成:第一步是获得表示图像中变化和结构的表象。这包括检测灰度的变化、表示和分析局部的几何结构、以及检测照明的效应等处理。第一步得到的结果被称为初始简图(primal sketch)的表象;第二步对初始简图进行一系列运算得到能反映可见表面几何特征的表象,这种表象被称为二维半(2.5 Dimension,意味着部分的,不完整的三维信息描述)简图或本征图像。"计算"的语言讲,就是重建三维物体在观察者为中心的坐标系下的三维形状和位置,当人眼或摄像机观察周围环境时,观察者对环境中的三维物体最初是以自身的坐标系来描述的。另外,我们只能观察到周围环境物体的一部分(另一部分是物体的背面或被其它的物体所遮挡的部分)。这样,重建的结果是以观察者坐标系下描述的部分三维物体形状,称为二维半描述。这一阶段包括由立体视觉运算提取深度信息,根据灰度影调、纹理等信息恢复表面方向,由运动视觉运算获取表面形状和空间关系信息等。

  这些运算的结果都集成到本征图像这个中间表象层次。因为这个中间表象已经从原始的图像中去除了许多的多义性,是纯粹地表示了物体表面的特征,其中包括光照、反射率、方向、距离等。根据本征图像表示的这些信息可以可靠地把图像分成有明确含义的区域(这称为分割),从而可得到比线条、区域、形状等更为高层的描述。这个层次的处理称为中层视觉处理(intermediate processing)。

  二维半描述是不够的,事实上,从各种不同角度去观察物体,观察到的形状都是不完整的。人脑中不可能存有同一物体的从所有可能的观察角度看到的物体形象,以用来与所谓的物体的二维半描述进行匹配与比较。因此,二维半描述必须进一步处理以得到物体的完整的三维描述,而且必须是物体本身某一固定坐标系下的描述,这一阶段称为第三阶段,即三维阶段。Marr 视觉理论中的这一阶段的表象层次是三维模型,它适用于物体的识别。这个层次的处理涉及物体,并且要依靠和应用与领域有关的先验知识来构成对景物的描述,因此被称为高层视觉处理。

时间: 2024-10-07 18:14:34

Marr的视觉计算理论的相关文章

CV学习资料《卷积神经网络与视觉计算》+《深度学习实践计算机视觉》+《视觉SLAM十四讲从理论到实践》电子资料代码分析

视觉和图形学真是一家,基础都一样! 如果学习图像识别,计算机视觉,推荐电子书<视觉SLAM十四讲:从理论到实践>,系统介绍了视觉SLAM(同时定位与地图构建)所需的基本知识与核心算法,既包括数学理论基础,如三维空间的刚体运动.非线性优化,又包括计算机视觉的算法实现,例如多视图几何.回环检测等. 一个周读完了,代码很清晰!Particle Filtering,KF,EKF, Batch Optimization, Lie Group,ICP,LK光流... 尤其惊喜的是文末作者看好的IMU-SL

上海云栖—人工智能-视觉计算专场预热

原文链接 摘要:     云栖大会在走过深圳.南京.成都后,即将于6月10号11号在上海隆重召开! 在之前的三场,我们都为大家带来的是阿里人工智能全线产品的分享,此次在上海为大家带来视觉计算的专场. 因为深度学习技术的发展.计算能力的提升和视觉数据的增长,视觉智能计算技术在不少应用当中取得了令人瞩目的成绩. 云栖大会在走过深圳.南京.成都后,即将于6月10号11号在上海隆重召开! 在之前的三场,我们都为大家带来的是阿里人工智能全线产品的分享,此次在上海为大家带来视觉计算的专场. 因为深度学习技术

计算理论中的莱斯定理(Rice&#39;s Theorem)——证明与应用

我们给出一个在探讨不可判定性时非常有用的结论--莱斯定理(Rice's Theorem).首先,我们来看前面讨论过的几个不可判定的例子: 这些都是由图灵机识别之语言的性质.而莱斯定理告诉我们,任何由图灵机识别之语言的非平凡性质(nontrivial property)都是不可判定的. 最后通过几个例子来探讨一下莱斯定理的应用.来看看下面这个语言能否使用莱斯定理来确定其可判定性. {<M> | M是一个TM,且L(M)可由一些拥有偶数个状态的图灵机识别} 首先来确定这是否是一个语言属性,显然是的

计算机软考笔记之《计算理论》

1.引言 为了回答诸如此类问题:哪些问题可以通过计算机解决?语言之间是否存在优势?运行一个程序前,是否可以确定该程序将要停止(终止)还是永远运行?用一种特定的语言解决一个问题需要多长时间?我们求助于一门学科:计算理论. 2.简单语言 通过简单语言可以看到计算机解决任何问题所需要最少语句是三条.它们是递增语句,递减语句和循环语句. 我们可以证明这种简单的语言能模拟一些流行语言中的多个语句.我们把每个模拟称为一个宏,它可以在其他模拟中使用,而不需要重复编码. ①简单语言中的宏 ②输入和输出 3.图灵

张艾迪(创始人):视觉计算极简主义的设计

AOOOiA.global创始人艾迪张:面临着新互联网的时代的到来.全球各行业对产品设计和色彩搭配上进行了新的色彩标准化.就想人们喜欢Apple的黑与白.喜欢AOOOiA.Global/224 的赤橙黄绿青蓝紫的鲜亮的色彩世界一样;不同忽视的是.更明亮.更清晰.更拟真化的视觉体验与视觉计算中.每一帧的色彩.每一帧的画质.都将更加标志性的展现与运用在各个领域与产品之中:全球市场喜欢不断的跟随市场色彩的变化.而忽略了真实化色彩世界的本真进化::让我们随着色彩进化论从回到19世纪:直到19世纪.我们所

关于视觉计算的思路

在研究有穷状态机的过程中,我无意发现四则运算问题 ,计算机程序与人的解决方式差异居然如此之大. 在计算机程序设计上,往往使用栈和树,将计算表达式解析拆分,然后依次求解. 而人不是这么回事. 人类(至少我),从小接受数学解题训练.遇到了数学表达式,顺序是: 1. 大致看一下整个表达式 2. 了解表达式结构后尝试用公式 化简或归并(使用特殊技巧转换表达式形式) 3. 对先乘除后加减十分敏感,当同时在相近区域看到乘除与加减时,会迅速先做乘除,后做加减.加减部分短暂时间内几乎被忽略. 4. 对诸如100

云端大规模视频分析: MaxCompute在视觉计算中的应用

这篇分享带来当今流行的研究方向,云端大规模视频分析和机器学习,这是计算机视觉工作者最好的时代.面对海量视频数据,什么是好的计算平台?需要灵活的数据存储,灵活算法部署和调度,合理的计算成本.杭州大脑的项目实践任务多样.算法复杂,数据庞大,MaxCompute很好地胜任了计算平台处理大规模视频的任务.那么,MaxCompute的正确打开方式是怎样的呢,怎样灵活利用MaxCompute使之性能达到最好,这里还有更多样的视觉计算等你来发现. 阅读原文请点击

计算理论初步:P vs NP 问题

1.问题概述 P = NP? 这个问题,作为理论计算机科学的核心问题,其声名早已经超越了这个领域.它是Clay研究所的七个百万美元大奖问题之一,在2006国际数学家大会上,它是某个1小时讲座的主题. 要说起P和NP是什么东西,得先从算法的多项式时间复杂度谈起,注意,这里面的两个P都是指Polynomial. 一个问题的规模指的是输入的总位数,比如一个n个数的排序问题,输入规模就是n.注意,在某些时候,输入规模是要值得注意的,比如判定一个数n是否是一个质数这个问题,它的输入规模并不是n,而是log

逻辑学和计算理论相关概念

集合:参见集合与函数相关定义 映射:参见集合与函数相关定义 满射:参见集合与函数相关定义 单射:参见集合与函数相关定义 关系:参见集合与函数相关定义 自反关系:参见集合与函数相关定义 传递关系:参见集合与函数相关定义 对称关系:参见集合与函数相关定义 等价关系:某个关系满足自反.传递.对称,则称它为等价关系 自然数集N:我们通常所见的由0,1,2,3,4-构成的集合 实数集R:通常我们能看到的数就是这个 复数集C:代数方程的根的集合 代数数:一个数为代数数,当且仅当它是某个整系数多项式方程的根