Finding Action Tubes - cvpr - 2015

论文题目Finding Action Tubes, 论文链接

该篇论文是CVPR 2015的, 主要讲述了action tube的localization.

直接看图说话, 该论文的核心思想/步骤可以分为两个components:

1 Action detection at every frame of the video

2 Linked detection in time produce action tubes

下面就分开来说每个component.

1 Action detection at every frame of the video

大概思想就是: 训练Spatial-CNN和Motion-CNN来提feature, 在feature上为每个类别训练线性svm.      

具体步骤如下:

a. 找出each frame的interesting regions. 基于ground-truth的region及action label, 构建正负样本.

这里用IoU的方法: >0.5 为positive region, <0.3为negative region.

为什么要这样做呢? 个人觉得论文里面的action tube是针对里面的actor来弄的,

也就是对视频里面的某个actor进行action的跟踪和action 分类.

必然数据集会给出视频的每一帧的action类别和对应的actor.

那么怎么找出这些regions? 以及怎么消除不必要的regions?

对于proposals的产生会有很多方法, 论文里面采用了selective search的方法来产生视频里每帧的proposals(大约2K)

显然这些proposals很大一部分是non-discriminative的, 而且会造成计算上严重的消耗, 不利于实时检测.

论文里面用了一种很简单的方法来消去这些not descriptive的regions:

需要注意的是, rgb和motion images的regions是一样的,

也就是prososals是用上述方法在rgb上提取到, 然后直接用到motion上的.

b. 训练Spatial-CNN和Motion-CNN

这里就展开说这两个CNN模型的framework了, 具体看论文.

训练它们的方式和RCNN的方式差不多. 具体可以实验室师兄的一篇blog

个人觉的该训练的要点有两个:

i. 在单帧上训练的.

ii. CNN模型的初始化.

众所周知, deep model的初始化很重要.

Spatial-CNN是用在Pascal Voc 2012的detection task上训练好的CNN模型来初始化.

Motion-CNN则是在UCF101 Motion数据集上训练好的CNN模型来初始化.

至于训练时的一些细节问题, 如学习率, 数据argumentation等, 请各位看官自己看论文哈.

c. 提取训练Spatial-CNN和Motion-CNN的FC7特征

这里只是将CNNs的fc7特征拼接起来, 简单暴力.

可以看下这篇blog的特征是怎么进一步融合的.

d. 训练actions的linear svms.

2 Linked detection in time produce action tubes

这一步是基于component 1来弄的.

a. 对每帧提取相应的regions, 每个region过Spatial-CNN和Motion-CNN, 来提取fc7特征,

后经svms, 来获取对应的action scores.

b. 对每个类别, 每个视频, 利用下图的公式来找出linked-action tubes.

即通过找出相邻两帧之间属于某个action类别的得分最高(score+IoU)的两个regions(一帧一个)

然后将这些regions串联起来形成action tube.

那么怎么计算一个action tube的action acore?

当然论文没有这么就完事了, 基于action tube的基础上, 进行了video的action classification.

这个非常简单, 请看公式:

至于效果嘛, 肯定是state-of-art的说说.

该篇论文的main contributions, 个人觉有以下几点:

a. 结合了Appearance和Motion signals.

b. 证实了Appearance和Motion signals是complementary的.

c. 用Motion signal来消去那些non-discriminative的regions, 这个比较新颖.

当然也有不足:

a. dataset大部分是针对一个actor的, 该方法会在多个actor的情况下效果是非常poor的.

b. Motion是事先算好的, 而不是学习的.

c. 整个framework非常pipeline.

好吧, 不会吐槽, 莫怪, 莫怪.

欢迎前来骚扰...

来自为知笔记(Wiz)

时间: 2024-12-23 17:53:35

Finding Action Tubes - cvpr - 2015的相关文章

CVPR 2015 papers

CVPR2015 Papers震撼来袭! CVPR 2015的文章可以下载了,如果链接无法下载,可以在Google上通过搜索paper名字下载(友情提示:可以使用filetype:pdf命令). Going Deeper With ConvolutionsChristian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke

OpenCV Tutorial CVPR 2015

OpenCV3.0在最近的CVPR 2015 公开.以下是关于OpenCV 3.0 的Tutorial. 包括以下3个部分: 1.OpenCV 3.0 概览与框架,ppt下载地址 2.OpenCV 3.0 的加速部分介绍,ppt下载地址 3.OpenCV 3.0 模块介绍, ppt下载地址 Jeremy Lin @HQU

CVPR 2015 paper 下载

cvpr2015列表已经出来提供下载,文件太多可以用迅雷或者wget直接下载 http://www.cv-foundation.org/openaccess/CVPR2015.py 但是这样全部下载还得一个一个翻看,于是乎写了个小程序专门选则自己方向的论文. 需要htmlparser解析网页代码,下载地址http://sourceforge.net/projects/htmlparser/files/htmlparser/ 还有为了方便,直接把paper网页保存在D盘了. import java

CVPR 2015 之深度学习篇 Part 2 - deep learning在计算机视觉各个子领域的应用

CVPR 2015 之深度学习篇 Part 2 - deep learning在计算机视觉各个子领域的应用 Image Classification (图像分类)deep learning 的腾飞归功于其在 image classification 上的巨大成功.2012年的 AlexNet 的分类效果遥遥领先于第二名.后来各种 deep architectures 被采用,其中有名的是 VGG-Net 和 GoogLeNet,他们比 AlexNet 使用了更多的层.其次,GoogLeNet 还

配置和运行 MatchNet CVPR 2015 MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching

配置和运行 MatchNet CVPR 2015 GitHub: https://github.com/hanxf/matchnet 最近一个同学在配置,测试这个网络,但是总是遇到各种问题. 我也尝试了一下,结果也是一堆问题. 这里记录一下. 问题1.  ImportError: No module named leveldb [email protected]:~/Downloads/matchnet-master$ ./run_gen_data.sh Traceback (most rece

Awesome Deep Vision

Awesome Deep Vision  A curated list of deep learning resources for computer vision, inspired by awesome-php and awesome-computer-vision. Maintainers - Jiwon Kim, Heesoo Myeong, Myungsub Choi, Jung Kwon Lee, Taeksoo Kim We are looking for a maintainer

CVPR 2016 paper reading (6)

1. Neuroaesthetics in fashion: modeling the perception of fashionability, Edgar Simo-Serra, Sanja Fidler, Francesc Moreno-Noguer, Raquel Urtasun, in CVPR 2015. Goal: learn and predict how fashionable a person looks on a photograph, and suggest subtle

Professional C# 6 and .NET Core 1.0 - Chapter 41 ASP.NET MVC

What's In This Chapter? Features of ASP.NET MVC 6 Routing Creating Controllers Creating Views Validating User Inputs Using Filters Working with HTML and Tag Helpers Creating Data-Driven Web Applications Implementing Authentication and Authorization W

Awesome Torch

Awesome Torch This blog from: A curated list of awesome Torch tutorials, projects and communities. Table of Contents Tutorials Model Zoo Recurrent Networks Convolutional Networks ETC Libraries Model related GPU related IDE related ETC Links Tutorials