深度学习特征检测LIFT,learnd invariant feature transform(1)

LIFT: Learned Invariant Feature Transform(1)

我的阅读翻译与理解

2016 ECCV 收录 Kwang Moo Yi?, Eduard Trulls?, Vincent Lepetit, Pascal Fua

1.介绍

  在CV领域局部特征发挥重要作用,从图像中寻找与匹配它们是大量的研究工作的课题。到最近,最好的技术依赖于手工设计的特征(SIFT,SURF,ORB)。在过去几年,在许多计算机视觉领域,基于machine learning或更确切说是deep learning已经开始表现的比传统技术更好。

  尽管如此,这些新算法只在完整的计算过程中的某一步使用深度学习,例如detecting feature,computing their orientation,extracting robust representations。本文使用一种全新的深度架构,将三部分一起执行。我们证明它的整体性能比最先进的方法要好,在很大程度上是因为它允许这些单独的步骤进行优化以配合彼此的工作。

  我们的架构称之为LIFT,learning invariant feature transform。完整流程如下图,它由三个相互联通的组件组成。the Detector, the Orientation Estimator, and the Descriptor。每个都是基于CNNs(卷积神经网络),这些都被证明可以很好地执行单独的功能。为结合它们,我们使用Spatial Transformers(Jaderberg, M., Simonyan, K., Zisserman, A., Kavukcuoglu, K.: Spatial Transformer Networks. In: NIPS. (2015))矫正经过Detector和Orientation Estimator输出的图像块。我们使用soft argmax function来替代传统的非局部极大值抑制。这将使我们保持end-to-end differentiability,同时全网络也能使用BP算法,此前我们从未找到这种方式架构。

  同时我们也知道如何有效训练,我们建立了一种Siamese network,使用SFM(Structure-from-Motion)产生的特征点训练它,SFM的场景的视角和光照都在变化,这样来训练它的权重。在不同尺度图像块上规划训练问题,使它变得更容易优化。在实践中,我们发现从头开始构建完整的架构是不可能的,因为分散的部件尝试优化不同的目标。我们介绍一种问题明确的learning来克服这个问题。它包含training the Descriptor first,然后被用来train the Orientation Estimator,and finally the Detector。测试时我们解耦运行,先是Detector在全图尺度空间跑一遍,the Orientation Estimator and Descriptor只处理keypoints。

2.相关工作

  局部特征的文献很多,但它们总是考虑finding feature points, computing their orientation, and matching them。这里我们将分别讨论三部分。

2.1 Feature Point Detectors
  特征点的研究大多数关心找到有特色的,大小和朝向能被可靠估计的局部地区。早期的角点寻找使用图像信号的一阶近似,FAST只使用machine learning加速找角点过程,除了角点,SIFT在尺度空间找blobs(斑块),SURF用Haar filter加速,MSER(Maximally Stable Extremal Regions)检测区域,(Mikolajczyk, K., Schmid, C.: An Affine Invariant Interest Point Detector. In: ECCV. (2002))检测仿射区域。SFOP(Forstner, W., Dickscheid, T., Schindler, F Detecting Interpretable and Accurate Scale-Invariant Keypoints. In: ICCV. (September 2009))使用junctions(连接,交叉) and blobs,Edge Foci使用鲁棒边界(Zitnick, C., Ramnath, K.: Edge Foci Interest Points. In: ICCV. (2011))应对光线变化。更多精心设计的复杂特征点被提出来,并且表现进一步提高(Mainali, P., Lafruit, G., Tack, K., Van Gool, L., Lauwereins, R.: Derivative-Based Scale Invariant Image Feature Detector with Error Resilience. TIP 23(5) (2014))(Mainali, P., Lafruit, G., Yang, Q.,Geelen, B., VanGool, L., Lauwereins, R.: SIFER: Scale-Invariant Feature Detector with Error Resilience. IJCV 104(2) (2013))。

  与这些工程上表现良好的特征点对比,早期的learning points尝试有(Sochman, J., Matas, J.: Learning a Fast Emulator of a Binary Decision Process. In: ACCV. (2007) )(Trujillo, L., Olague, G.: Using Evolution to Learn How to Perform Interest Point Detection. In: ICPR. (2006))。其中(Verdie, Y., Yi, K.M., Fua, P., Lepetit, V.: TILDE: A Temporally Invariant Learned DEtector. In: CVPR. (2015))展示出学习的特征点比之前的那些特征点表现更好。在这个工作中,分段线性卷积滤波器被训练的能鲁棒检测特征点,即使有lighting and seasonal changes。但是,这只能处理一小块图像数据,并且视角不能变化,因此我们根据它得到灵感,并且大幅度扩展到我们的流程中来。

2.2 Orientation Estimation

  尽管朝向在匹配特征点上起着关键的作用,估计一个区别性取向的问题比detection or feature description受到的关注少。结果导致SIFT介绍的方法往往成为小改进的标准,比如使用intensity centroid(强度中心),如ORB设计那样。

  (Yi, K., Verdie, Y., Lepetit, V., Fua, P.: Learning to Assign Orientations to Feature Points. In: CVPR. (2016))使用deep learning来预测稳定的方向,取得了巨大进步。我们将这个体系结构融入到我们的流程中并展示如何使用我们的问题特定的培训策略来训练它。

2.3 Feature Descriptors

  特征描述符被设计用来提供显著图像块的区别表示,并对视角和光照变化保持鲁棒性。有成熟的SIFT由梯度方向的局部直方图计算出来的,SURF使用积分图像表示来加速,DAISY(Tola, E., Lepetit, V., Fua, P.: A Fast Local Descriptor for Dense Matching. In: CVPR. (2008))依赖于有定向梯度的卷积图来近似直方图,这使DAISY提取稠密描述符时,它会产生很大的计算收益。

  尽管很成功,但是学习型的描述子表现更好。从无监督的哈希到基于线性判别分析的监督学习技术(Strecha, C., Bronstein, A., Bronstein, M., Fua, P.: LDAHash: Improved Matching with Smaller Descriptors. PAMI 34(1) (January 2012))(Winder, S., Brown, M.: Learning Local Image Descriptors. In: CVPR. (June 2007)),遗传算法,凸优化。现在流行通过大量数据训练过的CCNs,直接从raw image patches释放描述子。例如MatchNet(Han, X., Leung, T., Jia, Y., Sukthankar, R., Berg, A.C.: MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching. In: CVPR. (2015))训练Siamese CNN来特征表达用一个全连接的网络来度量,DeepCompare(Zagoruyko, S., Komodakis, N.: Learning to Compare Image Patches via Convolu- tional Neural Networks. In: CVPR. (2015))展示出当network focuses on the center of the image能表现更好。(Zbontar, J., LeCun, Y.: Computing the Stereo Matching Cost with a Convolutional Neural Network. In: CVPR. (2015))使用相似方法获得短基线情况下较好的两视图匹配。在(Simo-Serra, E., Trulls, E., Ferraz, L., Kokkinos, I., Fua, P., Moreno-Noguer, F.: Discriminative Learning of Deep Convolutional Feature Point Descriptors. In: ICCV. (2015))中hard negative mining被用来学习compact descriptors,compact descriptors使用欧式距离度量相似性。(Balntas, V., Johns, E., Tang, L., Mikolajczyk, K.: PN-Net: Conjoined Triple Deep Network for Learning Local Image Descriptors. In: arXiv Preprint. (2016))依靠sample triplets to mine hard negatives。

  我们依靠(Balntas, V., Johns, E., Tang, L., Mikolajczyk, K.: PN-Net: Conjoined Triple Deep Network for Learning Local Image Descriptors. In: arXiv Preprint. (2016))的架构,因为描述符被训练并用欧氏距离进行比较,与需要学习度量的描述符相比,它具有更广泛的适用性。

3.方法

我们的架构有四个分支,P1和P2 (blue)对应同一物理点的不同视图,并被用作训练描述符的正面例子。P3 (green)是不同的3d点,对于描述符来说,这是一个负面的例子。P4 (red)不包含明显的特征点,只作为一个负面的例子来训练Detector。输入一个P,the Detector, the softargmax, and the Spatial Transformer层分别提供一个小p,然后进入the Orientation Estimator和the Spatial Transformer层Rot一下,得到the rotated patch pθ,然后提供给the Descriptor得到最终的description vector d

时间: 2024-10-13 11:16:02

深度学习特征检测LIFT,learnd invariant feature transform(1)的相关文章

图像识别中的深度学习 转

转:http://mp.weixin.qq.com/s?__biz=MzAwNDExMTQwNQ==&mid=209152042&idx=1&sn=fa0053e66cad3d2f7b107479014d4478#rd#opennewwindow 1.深度学习发展历史 深度学习是近十年来人工智能领域取得的重要突破.它在语音识别.自然语言处理.计算机视觉.图像与视频分析.多媒体等诸多领域的应用取得了巨大成功.现有的深度学习模型属于神经网络.神经网络的起源可追溯到20世纪40年代,曾经

Deep Learning(深度学习)学习笔记整理系列七

Deep Learning(深度学习)学习笔记整理系列 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应.如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除. 3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈不吝指正,谢谢. 4)阅读本文需要机器学习.计算机视觉.神经网络等等基础(如果没有也没关系了,没

Deep Learning(深度学习)学习笔记整理系列之(四)——CNN

[email protected] http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0  2013-04-08 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应.如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除. 3)本人才疏学浅,整理总结的时候难免出错,还望各位前辈

深度学习文献阅读笔记(3)

21.深度神经网络在视觉显著性中的应用(Visual Attention with Deep Neural Networks)(英文,会议论文.2015年,IEEE检索) 这篇文章主要讲CNN在显著性检測领域的应用. 22.深度学习研究进展(中文,期刊,2015年.知网) 深度学习方面的一篇综述性文章,对深度学习的由来,人脑视觉机理,CNN结构都有较为具体的描写叙述,并介绍深度学习在今后的主要改进方向. 23.深度学习研究进展(中文,期刊,2014年,知网) 强调一点.就是Hinton等人所做的

Deep Learning(深度学习)学习笔记整理

申明:本文非笔者原创,原文转载自:http://www.sigvc.org/bbs/thread-2187-1-3.html 4.2.初级(浅层)特征表示 既然像素级的特征表示方法没有作用,那怎样的表示才有用呢? 1995 年前后,Bruno Olshausen和 David Field 两位学者任职 Cornell University,他们试图同时用生理学和计算机的手段,双管齐下,研究视觉问题. 他们收集了很多黑白风景照片,从这些照片中,提取出400个小碎片,每个照片碎片的尺寸均为 16x1

文献 | 2010-2016年被引用次数最多的深度学习论文(修订版)

本来来自 :http://blog.csdn.net/u010402786/article/details/51682917 一.书籍 Deep learning (2015) 作者:Bengio 下载地址:http://www.deeplearningbook.org/ 二.理论 1.在神经网络中提取知识 Distilling the knowledge in a neural network 作者:G. Hinton et al. 2.深度神经网络很易受骗:高信度预测无法识别的图片 Deep

Deep Learning(深度学习)学习笔记整理系列之(七)

Deep Learning(深度学习)学习笔记整理系列 [email protected] http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-04-08 声明: 1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应.如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主

深度学习:卷积神经网络(convolution neural network)

(一)卷积神经网络 卷积神经网络最早是由Lecun在1998年提出的. 卷积神经网络通畅使用的三个基本概念为: 1.局部视觉域: 2.权值共享: 3.池化操作. 在卷积神经网络中,局部接受域表明输入图像与隐藏神经元的连接方式.在图像处理操作中采用局部视觉域的原因是:图像中的像素并不是孤立存在的,每一个像素与它周围的像素都有着相互关联,而并不是与整幅图像的像素点相关,因此采用局部视觉接受域可以类似图像的此种特性. 另外,在图像数据中存在大量的冗余数据,因此在图像处理过程中需要对这些冗余数据进行处理

[转载]Deep Learning(深度学习)学习笔记整理

转载自:http://blog.csdn.net/zouxy09/article/details/8775360 感谢原作者:[email protected] 八.Deep learning训练过程 8.1.传统神经网络的训练方法为什么不能用在深度神经网络 BP算法作为传统训练多层网络的典型算法,实际上对仅含几层网络,该训练方法就已经很不理想.深度结构(涉及多个非线性处理单元层)非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源. BP算法存在的问题: (1)梯度越来越稀疏:从顶层越往下