摘要
从少数样本学习并泛化至截然不同的情况是人类视觉智能所拥有的能力,这种能力尚未被先进的机器学习模型所学习到。通过系统神经科学的启示,我们引入了视觉的概率生成模型,其中基于消息传送(message-passing)的推断以统一的方式处理识别、分割和推理(Reasoning)。该模型表现出优秀的泛化和遮挡推理(occlusion-reasoning)能力,并在困难的场景文字识别基准任务上优于深度神经网络,且更具有 300 倍的数据效率(data efficient)优势。此外,该模型基本上打破了现代基于文本的验证码生成方案,即在没有具体验证码的启发式方法下分割目标。我们的模型在通向通用人工智能的路上可能是非常重要的,因为它强调了数据效率和语意合成性等特性。
从几个例子中学习和概括的能力是人类智力的标志(1)。
CAPTCHAs,网站使用的阻止自动交互的图像,
是人类易于使用的问题的例子,但对于计算机来说却很困难.
CAPTCHAs对于算法来说很难,因为它们将混乱和拥挤的字符加在一起,
字符分类器创建一个鸡和鸡蛋问题
分类器适用于已分段出来但分段的字符个人角色需要理解角色,
每个角色可以以组合方式呈现(2-5)。
最近一种深度学习的方法来解析一种特定的人机识别模式,需要数百万个标注的例子(6),
早期的方法主要依靠手工制作的风格特定的启发式来分割字符(3,7);
而人类可以在没有明确训练的情况下解决新的风格(图1A)。
字母形式可以呈现并仍然被人们理解的各种各样的方式在图1中示出。
Douglas Hofstadter设想“程序处理具有人类灵活性,它必须拥有全面的人工智能“(8)。要构建这样的模型远远超出训练数据,
许多研究人员推测,这可以通过结合视觉皮层(9-12)的感应偏差来实现,利用神经科学和认知科学研究产生的丰富数据。
在哺乳动物的大脑中,视觉皮层中的反馈连接起作用
即使部分透明的物体占据相同的空间位置(13-16),图像分割中的角色和基于对象的自顶向下的注意力即使隔离对象的轮廓。
视觉皮层的横向连接涉及强化轮廓连续性(17,18)。使用相互作用的独立机制(19-21)来表示轮廓和曲面,
使得能够识别和想象出异常外观的物体 - 例如由冰制成的椅子。皮质激活的时间和形态给出了关于轮廓表面表示和推理算法的线索(22,23)。
基于皮质功能的这些见解尚未纳入领先的机器学习模型
我们引入了一个称为递归皮质网络(RCN)的层次模型,将这些神经科学见解融入到一个结构化概率生成模型框架。
除了开发RCN及其学习和推理算法之外,我们将该模型应用于需要从一个或几个训练示例中进行泛化的各种视觉认知任务:解析CAPTCHAs,一次和几次识别以及生成手写数字, 闭塞推理和场景文本识别。 然后,我们将其性能与最先进的模型进行比较。
Recursive cortical network
RCN建立在现有的组合模型(24,28-32)上。
虽然基于语法的模型(24)具有基于来自语言学的众所周知的想法的优点,
但是它们将解释限制为单个树,或者在使用归因关系时计算不可行(32)。
关于AND-OR模板和树结构化组合模型(34)的开创性工作具有简化推理的优点,
但由于缺乏横向约束,缺乏选择性(35)。
来自另一个重要类别(25,29)的模型使用横向约束,而不是通过池化结构逐渐构建不变性(36),
它们使用参数变换来完成每个级别的完整的缩放,旋转和平移不变性。
需要自定义推理算法,但这些算法在传播局部相互作用之外的横向约束效应方面无效。
(37)中的轮廓和曲面的表示不会对它们的相互作用进行建模,而是选择将其模型化为独立的机制.
RCN和组合机器(CM)(32)共享将组合模型想法放置在图形模型公式中的动机。
然而,CM的“组合分布”的代表性选择 - 使用单层随机变量来折叠特征检测,汇集和横向协调 - 导致扩展的状态空间,从而将模型限制为贪心推理和解析过程。
一般来说,由于各种各样的表现形式的选择,组合模型的推论依赖于不同模型实例的定制方法,包括求解随机偏微分方程(30),基于抽样的算法(24)和修剪动态规划( 29)。
RCN整合并构建了组合模型的各种想法 - 层次结构,逐渐建立不变性,侧向连接的选择性,轮廓分解和基于解释的联合解释 - 在结构化概率图形模型中,
使信仰传播(38)可以用作 主要近似推理机[(33)第6节]。
实验性神经科学数据提供了代表性选择的重要指导[(33)]第7节,然后使用实验研究证实有益。 我们现在讨论RCN及其推理和学习算法的表示。
数学细节在(33)的第2至5节中讨论。
Representation
在RCN中,对象被建模为轮廓和曲面的组合(图2A)。轮廓出现在表面的边界处,无论是在对象的轮廓和组成对象的曲面之间的边界。表面使用条件随机场(CRF)建模,其捕获表面性质变化的平滑度。轮廓使用特征的组成层次来建模(28,39)。轮廓(形状)和表面(外观)的因子表示使得模型能够以显着不同的外观识别物体形状,而不必对每种可能的形状和外观组合进行详尽的训练。我们现在详细描述形状和外观表示。图2B显示了两个子网(黑色和蓝色)
一个级别的RCN轮廓层次结构。图中填充和空的圆形节点分别对应于特征和池的二进制随机变量。每个特征节点编码其子池的AND关系,每个池变量编码其子特征的OR,类似于AND-OR图(34)。表示为矩形“因子节点”的横向约束协调连接到的池之间的选择。可以对应于两个对象或对象部分的两个子网共享较低级别的特征。
图2C示出了表示平方的轮廓的三级网络。最低,中等和最高水平的特征分别表示线段,拐角和整个正方形。每个池变量池不同
“中心”特征的变形,小平移,缩放变化等,从而引入相应的不变性。没有池之间的横向连接(图2C中的灰色方块),从表示
如图3A所示,角部可以产生不对准的线段。池之间的横向连接通过确保在一个池中的特征的选择影响其连接的池中的特征的选择来提供选择性(35),创建轮廓变化更加平滑的样本。横向约束的灵活性是通过扰动因子来控制的,这是一个每级指定的超参数。通过多层特征集合,横向连接和组合,顶层的特征节点可以表示可以通过一定程度的平移,缩放和变形不变性来识别的对象。
生成模型先验知识
数据足够多,神经网络同样能达到效果。
神经网络
隐马尔科夫模型HMM
http://freemind.pluskid.org/machine-learning/hmm-definition/
如何轻松愉快地理解条件随机场
http://www.jianshu.com/p/55755fc649b1