论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

论文题目:End-to-end Learning of Action Detection from Frame Glimpses in Videos

出处:arXiv,目前尚未有正式出版

作者及单位:

Serena Yeung1, Olga Russakovsky1,2, Greg Mori3, Li Fei-Fei1

1Stanford University, 2Carnegie Mellon University, 3Simon Fraser University

相关工作:视频中的行为检测大部分现存工作采用:构建帧级的分类器,对一段视频在不同的时间尺度上进行详尽的检测,之后采用后处理,例如持续时间的先验和非极大值抑制。这些对行为定位的非直接建模在精度和计算效率上都不能达到令人满意的效果。

本文方法:作者提出一种直接分析行为的时域边界的end-to-end的方法。作者的直觉:行为检测是一项持续,循环往复的观察和提炼的任务。人类在提供单帧或者几帧观察,能够对行为什么时候发生有一个预测。然后会后跳或者回退一些帧来核实并且快速的缩小行为位置的区间。如Figure 1,

模型:具体的模型结构如Figure 2所示,模型有两个主要组成部分,observation network和recurrent network。observation network用来编码视频帧,本文采用VGG来编码,采用最后一层全连接层长度为1024的向量变表示视频帧,如Figure 2中的On,VGG需进行fine-tune。recurrent network采用三层的LSTM-RNN网络,每层隐层单元数均为1024。每个时间步,输出d(n)=(s(n),e(n),c(n)),p(n)和l(n+1)。其中d(n)为检测到的第n个时间窗口的信息,s为开始的位置,e为结束位置,c为置信度,p为binary value,标识d(n)是否emit,即是否是真的是行为片段,l(n+1)为下一个要“attend”的视频帧的位置(此处,我认为这个模型也是attention模型,l(n+1)为权重),注意,l(n+1)可能跳回到前面的视频帧,即作者所谓的回调来做refinement。

训练:d可以使用bp训练,p和l不可微,采用增强学习来学习。

数据:采用THUMOS’14 Dataset和ActivityNet Dataset,结果相对之前的方法有较大的提高。

结论:提出了一个端到端的行为检测的方法。

时间: 2024-10-06 01:15:45

论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos的相关文章

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

Apache Spark源码走读之1 -- Spark论文阅读笔记

转自:http://www.cnblogs.com/hseagle/p/3664933.html 楔子 源码阅读是一件非常容易的事,也是一件非常难的事.容易的是代码就在那里,一打开就可以看到.难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么. 在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择. 在阅读该论文的基础之上,再结合Spark作者在2012 Develop

【论文阅读】Sequence to Sequence Learning with Neural Network

Sequence to Sequence Learning with NN <基于神经网络的序列到序列学习>原文google scholar下载. @author: Ilya Sutskever (Google)and so on 一.总览 DNNs在许多棘手的问题处理上取得了瞩目的成绩.文中提到用一个包含2层隐藏层神经网络给n个n位数字排序的问题.如果有好的学习策略,DNN能够在监督和反向传播算法下训练出很好的参数,解决许多计算上复杂的问题.通常,DNN解决的问题是,算法上容易的而计算上困难

论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fully Convolutional Networks for Semantic Segmentation 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.概览&主要贡献 提出了一种end-to-end的做semantic segmentation的方法,简称FCN. 如下图所示,直接拿segmentation 的 ground truth作为监督信息,训练一个端到端的网络,让

论文阅读笔记--Selective Search for Object Recognition

Selective Search for Object Recognition [email protected] 作者: J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders. 引用: Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer v

关键字抽取论文阅读笔记

刘知远老师博士论文-基于文档主题结构的关键词抽取方法研究 一.研究背景和论文工作介绍 关键词抽取分为两步:选取候选关键词和从候选集合中推荐关键词. 1.1. 选取候选关键词 关键词:单个词或者多个单词组成的短语. 抽取难点:如何正确判定候选关键词的边界.(在英文关键词抽取中,一般选N元词串,计算N元词串内部联系的紧密程度来判断是否是一个有独立语义的短语.类比搭配抽取.多词表达抽取任务) 1.2. 推荐关键词 得到候选关键词集合后,两种途径解决关键词选取问题. (1)无监督的方法 利用统计特性(e

阅读笔记 CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network

总结 CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network Yuxin Peng, Jinwei Qi, Xin Huang and Yuxin Yuan 常见方法 使用深度神经网络(DNN)的跨模态检索大体分为两个步骤: 1 The first learning stage is to generate separate representation for each mo

SLAM论文阅读笔记

[1]陈卫东, 张飞. 移动机器人的同步自定位与地图创建研究进展[J]. 控制理论与应用, 2005, 22(3):455-460. [2]Cadena C, Carlone L, Carrillo H, et al. Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age[J]. IEEE Transactions on Robotics, 2016