【CV论文阅读】Dynamic image networks for action recognition

论文的重点在于后面approximation部分。

在《Rank Pooling》的论文中提到，可以通过训练RankSVM获得参数向量d，来作为视频帧序列的representation。而在dynamic论文中发现，这样的参数向量d，事实上与image是同等大小的，也就是说，它本身是一张图片（假如map与image同大小而不是提取的特征向量），那么就可以把图片输入到CNN中进行计算了。如下图可以看到一些参数向量d pooling的样例

参数向量d的快速计算

把计算d的过程定义一个函数。一个近似的方法是初始化，通过梯度下降的方法求解d的最优值

，最终可以得到，

把上式展开得

其中。在这里，于是结果为。

Dynamic Maps Network

可以看到rank pooling操作把多个image的信息pooling到一张image。上图的结构中，可以看到rank pooling的操作要么直接作用在输入的image上，要么作用在经过多层CNN提取的feature image上，因此可以把pooling 操作定义如下函数

可以把pooling层表达成一个线性的组合，由于Vt是一个线性函数，于是重写

可以看到函数本身也依赖于，对于BP算法的求导而言是很困难的。

使用近似的方法

从近似计算参数向量d的方法中可以看到，系数是独立于image的。直接使用d的近似计算来替代计算的线性组合，则BP算法后向传播时可以看到偏导数的解为

是一个单位矩阵。很明显，是一个常数。

总结

个人认为，近似的方法很巧妙，实验结果也挺好的，但近似的方法好像不大合理的样子……

时间： 2024-10-07 16:16:35

【CV论文阅读】Dynamic image networks for action recognition的相关文章

论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

论文题目:End-to-end Learning of Action Detection from Frame Glimpses in Videos 出处:arXiv,目前尚未有正式出版作者及单位: Serena Yeung1, Olga Russakovsky1,2, Greg Mori3, Li Fei-Fei1 1Stanford University, 2Carnegie Mellon University, 3Simon Fraser University 相关工作:视频中的行为检测

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过

【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition

论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法输入的候选bounding box(使用selective s

【CV论文阅读】Dynamic image networks for action recognition

【CV论文阅读】Dynamic image networks for action recognition的相关文章

论文阅读笔记——End-to-end Learning of Action Detection from Frame Glimpses in Videos

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

【CV论文阅读】Image Captioning 总结

【CV论文阅读】 Fast RCNN

【CV论文阅读】Going deeper with convolutions(GoogLeNet)

论文阅读：Memory Networks

【CV论文阅读】Detecting events and key actors in multi-person videos