论文笔记之:Optical Flow Estimation using a Spatial Pyramid Network

  Optical Flow Estimation using a Spatial Pyramid Network

spynet

  本文将经典的 spatial-pyramid formulation 和 deep learning 的方法相结合,以一种 coarse to fine approach,进行光流的计算。This estiamates large motions in a coarse to fine approach by warping one image of a pair at each pyramid level by the current flow estimate and compute an update to the flow.

  我们利用 CNN 来进行每一层 flow 的更新,而不是传统方法中目标函数的最小化。与 FlowNet 相比,本文的方法不需要处理 large motions;这些已经在 pyramid 中处理了。该方法的主要优势有:

  1. our Spatial Pyramid Network is much simpler and 96% smaller than FlowNet in terms of model parameters.

  2. since the flow at each pyramid level is small (< 1 pixel), a convolutional approach applied to pairs of warped images is appropriate.

  3. unlike FlowNet, the learned convolution filters appear similar to classical spatio-temporal filters, giving insight into the method and how to improve it.

  现有方法存在的主要问题:

  将两张图直接 stack大一起,放到 CNN 当中。当两帧图像之间的 motion 大于 one or a few pixels, spatial-temporal convolutional filters 将不会收到有效的相应。也就是说,if a convolutional window in one image does not overlap with related image pixels at the next time instant, no meaningful temporal filter can be learned.

  这里需要解决两个关键性的问题:1. 长期依赖的问题;  2. detailed, sub-pixel, optical flow and precise motion boundaries。FlowNet 是尝试在一个网络中解决这两个问题,而该方法则是用 CNN 来解决第二个问题,用现有的方法来解决第一个问题。

  

  Approach:

  本文用 spatial pyramid 的方式,from coarse to fine 的方法来解决 large motion的问题。

  

  

  

  

  

时间: 2024-10-09 02:13:50

论文笔记之:Optical Flow Estimation using a Spatial Pyramid Network的相关文章

Optical Flow Estimation 发展历程 (1)

Optical flow estimation Traditional Method Variational approach TVL-1 Deep Method Supervised FlowNet FlowNetC Unsupervised 原文地址:https://www.cnblogs.com/kwanss/p/10247349.html

Optical Flow 发展历程 (1)

Optical flow estimation Traditional Method Variational approach TVL-1 [1] Deep Method Supervised FlowNet [6] FlowNetC [6] FlowNetS [6] FlowNet2.0 [3] SpyNet [5] LiteFlowNet [7] PWCNet [4] Unsupervised MotionFlowNet [2] 接下来的几篇文章将详细分析这几个模型: 参考文献: [1] A

光流Optical Flow介绍与OpenCV实现

光流(optic flow)是什么呢?名字很专业,感觉很陌生,但本质上,我们是最熟悉不过的了.因为这种视觉现象我们每天都在经历.从本质上说,光流就是你在这个运动着的世界里感觉到的明显的视觉运动(呵呵,相对论,没有绝对的静止,也没有绝对的运动).例如,当你坐在火车上,然后往窗外看.你可以看到树.地面.建筑等等,他们都在往后退.这个运动就是光流.而且,我们都会发现,他们的运动速度居然不一样?这就给我们提供了一个挺有意思的信息:通过不同目标的运动速度判断它们与我们的距离.一些比较远的目标,例如云.山,

论文笔记:Chaotic Invariants of Lagrangian Particle Trajectories for Anomaly Detection in Crowded Scenes

[原创]Liu_LongPo 转载请注明出处 [CSDN]http://blog.csdn.net/llp1992 最近在关注 crowd scene方面的东西,因为某些原因需要在crowd scene上实现 anomaly detection,所以看到了这篇论文,该论文是目前在crowd scene中进行abnormal detection做的最好的,记录下笔记当做学习资料. 传统的 anomaly detection中,很多突发事件监测都是基于motion information的,这样就忽

【论文笔记】Recursive Recurrent Nets with Attention Modeling for OCR in the Wild

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. <Recursive Recurrent Nets with Attention Modeling for OCR in the Wild>已经被CVPR 2016(CV领域三大顶会之一)正式接收了,主要是介绍了

FlowNet: Learning Optical Flow with Convolutional Networks

作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/7122701.html 版权:本文版权归作者和博客园共有 转载:欢迎转载,但未经作者同意,必须保留此段声明:必须在文章中给出原文连接:否则必究法律责任 学习了一篇用CNN做光流的paper,简称FlowNet. 1. 论文题目  FlowNet: Learning Optical Flow with Convolutional Networks 2.背景 为什么想到用CNN做光流:最近提出的CNN架构可以做逐

论文笔记(1)——《Where&#39;s Wally?Precise User Discovery Attacks in Location Proximity Services》

Abstract: 位置相近服务在社交和移动网络的广泛使用是基于可用性和用户隐私的平衡,但引发了三角定位攻击的风险.文章系统化地讨论了此类攻击的防范,包括问题在不同临近模型下的形式化,针对不同模型的有效攻击,以及攻击需要的询问次数的确界,并针对实际应用进行实验. 一)对攻击的建模:UDP,已知包含点p的欧氏平面区域A以及一个提供邻域信息的黑箱,找到点p的位置 邻域(proximity oracle)定义:,以某点为圆心的区域 原问题化为两部分: 1)Disk Coverage:将A用最少的r-邻

Kalman论文笔记

笔者前段时间阅读了一些关于Kalman的姿态论文,本想把Kalman的知识点也整理出来发布,无奈这编辑器不给力,太多的公式无法复制粘贴,图片格式上传的太复杂,就放弃了.因此笔者只发布Kalman的论文笔记,用表格的形式分析了几篇论文的Kalman filter的结构,希望对大家有帮助. 表格中包含有 论文名称 状态变量 转移矩阵 观测变量 观测矩阵 过程噪声 观测噪声 备注 百度网盘:pan.baidu.com/s/1kT1iC6r

DL4NLP —— 看图说话(Image Caption)任务的论文笔记(一)评价指标和NIC模型

看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.应用场景:比如说用户在拍了一张照片后,利用Image Caption技术可以为其匹配合适的文字,方便以后检索或省去用户手动配字:此外它还可以帮助视觉障碍者去理解图像内容.类似的任务还有Video Caption,输入是一段视频,输出是对视频的描述. (一)任务描述 目前来说,Image Caption任务主要集中在英文上,数