Progressive Sparse Local Attention for Video object detection

motivation:

之前使用flownet的方法有诸多弊端。

1.在检测框架中加入光流网络极大地增加了检测器模型的参数,无法用在移动端。

2.光流原本是描述两张图片间像素点的位移的,直接将其用在high-level的feature map上会引入人为的干扰。特别的,high-level的feature map上的像素点移动一格,对应的图片上可能存在10-20个像素点的位移,光流估计大位移容易出错。

  因此本文舍弃了光流网络,提出了一个叫做Progressive Sparse Local Attention(PSLA)的新模型用来替代光流网络,在高层语义特征之间做特征传播。

具体来说,\(F_t,F_{t+\epsilon}\)分别为帧\(I_t,I_{t+1}\)的特征,PSLA首先计算两特征之间的correspondence weights,然后用这个计算出的权重与特征做卷积来进行特征对齐。这个机制和attention很像但有不同之处,后面会介绍。

和之前的视频目标检测方法类似,本文也是仅在稀疏的关键帧上做特征提取,并用PSLA得到非关键帧的特征。PSLA用在两个地方:

1.将关键帧的特征传播到非关键帧;此外,一个轻量的质量网络被用在非关键帧上,将非关键帧的low-level feature用来同传播来的high-level feature做补充。文章称之为Dense Feature Transforming(DFT).

2.在关键帧之间进行特征传播;此外,一个更新网络被用来递归地更新关键帧上的特征。文章称之为Recursive Feature Updating(RFU).

所提出的框架概览

图1.以两张关键帧\(I^{K1},I^{k2}\)和一张非关键帧\(I^i\)为例来简单说明文章的算法框架。关键帧首先送到\(N_f\)来得到高层特征\(F_h^k\),非关键帧送入一个轻量的网络\(N_l\)来提取低层特征\(F_l^i\)。

时序特征\(F_t)用RFU来增强高层特征,其中\(F_t\)是由更新网络结合高层特征来递归更新得到的。与此同时,用DFT在关键帧和非关键帧之间传播特征。

PSLA

   用来进行特征传播过程中的特征对齐,是本文的核心。这一操作的motivation如图2所示;

作者随机选了100段视频用flownet提取了光流,然后对光流的值进行了统计,分为水平和竖直方向分别进行了统计。可以看到光流值大部分集中在0附近。

这说明用来计算关联权重的特征单元可以被限制到一个较小的区域,在这个区域里用渐进式稀疏步幅来选择参与计算的特征pixel。渐进式稀疏步幅使PSLA更关注于近邻的具有小光流的区域。

PSLA的操作可以归纳为两步,如下图所示:

第一步,基于两个特征的相似性计算稀疏关联权重值(sparse correspondence weights)。计算公式如下:

值得说明的是,这里的i,和j均代表一个二维坐标。

,这里计算两个一维向量的内积,代表两个向量的相似度。

其中i代表上图中第一个方格图中的深色点坐标,j代表第二个方格图中的方框内的深色点坐标。第二个方格图中深色点坐标的产生具体可看原文。

最后将计算的得到的权重系数用softmax做归一化,

然后得到对齐后的特征:

这个过程其实就是首先求一个卷积核的权重,然后用卷积核在特征图上做卷积操作得到待估计图片的特征。

递归特征更新

被用在稀疏关键帧之间进行特征聚合增强的操作。为了利用之前帧的时序语义信息,在关键帧上不仅要进行特征提取,还要聚合之前关键帧的时序信息,得到一个更强的特征表达。

具体的方法和之前的文章类似,这里就不过多赘述。

稠密特征传播

被用在关键帧和非关键帧之间,使用PSLA将之前关键帧的增强后特征传播到当前非关键帧。这里还用了非关键帧的low-level和传播来的特征进行了一个融合,增强了细节表达。

实验结果:mAP=77.1,titan x上18.73fps,比之前的工作有一些提升。

原文地址:https://www.cnblogs.com/hf19950918/p/10704500.html

时间: 2024-08-29 22:01:39

Progressive Sparse Local Attention for Video object detection的相关文章

Video Object Detection with an Aligned Spatial-Temporal Memory

摘要: 本文针对视频目标检测问题提出时空记忆网络(STMN).它的核心是时空记忆模块,作为一种递归计算单元去建模长时间目标外观和运动信息.STMN可以用一个预训练的CNN backbone进行初始化,这对提高检测精度非常重要.本文为了建模目标运动提出匹配变换去对齐帧到帧的特征.本文的方法在VID数据集上获得了state-of-the-art的结果,我们的消融学习清楚地证明了本文设计架构的有效性,代码和模型都公开在:http://fanyix.cs.ucdavis.edu/project/stmn

Histograms of Sparse Codes for Object Detection用于目标检测的稀疏码直方图

AbstractObject detection has seen huge progress in recent years, much thanks to the heavily-engineered Histograms of Oriented Gradients (HOG) features. Can we go beyond gradients and do better than HOG? We provide an affirmative answer by proposing a

ThunderNet: Towards Real-time Generic Object Detection

Related Work CNN-based object detectors:CNN-based object detectors are commonly classified into two-stage detectors and one-stage detectors. In two-stage detectors, R-CNN [8] is among the earliest CNN-based detection systems. Since then, progressive

cvpr 2016 论文学习 Video object segmentation

Abstract— Video object segmentation, a binary labelling problem is vital in various applications including object tracking, action recognition, video summarization, video editing, object based encoding and video retrieval(检索). This paper presents an

Rapid Object Detection using a Boosted Cascade of Simple Features 部分翻译

Rapid ObjectDetection using a Boosted Cascade of Simple Features 使用简单特征级联分类器的快速目标检测 注:部分翻译不准出以红色字体给出 翻译,Tony,[email protected] 摘要: 本文介绍一种机器学习在目标检测中的视觉应用,其能够迅速的处理图像,并能达到一个较高的识别率.这项工作之所以有成就是因为存在以下三个关键特点:第一介绍一种新型的图像表示,我们称之为"积分图像",其允许我们探测器使用的特征可以快速的

对这个运动目标检测方法实现的结果A Hybrid Algorithm for Moving Object Detection

最近在做烟火检测,需要用到运动检测,看到论文A System for Video Surveillance and Monitoring中的A Hybrid Algorithm for Moving Object Detection这个方法,我用opencv将其实现,代码下面会贴出,但是其的到的结果很差,不知道代码哪里出了问题,请高手给予指点,谢谢! 左图为原图,有图为用上面论文中的方法得到前景图像,[自己的代码可能写错了,请大神们给予指点谢谢] 代码如下: #include <stdio.h>

【论文笔记】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

写在前面: 我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正! E-mail:[email protected]. ------------------------------------------------ <Faster R-CNN: Towards Real-Time Object Detection with Reg

(不断更新)关于显著性检测的调研-Salient Object Detection: A Survey

<Salient Object Detection: A Survey>作者:Ali Borji.Ming-Ming Cheng.Huaizu Jiang and Jia Li 基本按照文章中文献出现的顺序. 一.L. Itti, C. Koch, and E. Niebur, "A model of saliency-based visual attention for rapid scene analysis," IEEE TPAMI, 1998. 一个用于快速场景分析

论文阅读:DHSNet: Deep Hierarchical Saliency Network for Salient Object Detection

因写作需要,再精读一下这篇文章,只说这篇文章提出的方法. 1.摘要部分: 本文提出了一种基于卷积神经网络的深层次显著性网络(deep hierarchical saliency network,DHSNet).该网络以下统一称作"DHSNet".工作流程大体是这样的: 1)首先,DHSNet通过自动学习各种全局结构上的显著性线索(这些线索包括全局对比度.对象性.紧凑性以及它们的优化组合),对输入的图片生成一个粗略的全局上的预测结果: 2)接着, 本文提出了一种分层递归卷积神经网络(hi