【CV论文阅读】Image Captioning 总结

初次接触Captioning的问题,第一印象就是Andrej Karpathy好聪明。主要从他的两篇文章开始入门,《Deep Fragment Embeddings for Bidirectional Image Sentence Mapping》和《Deep Visual-Semantic Alignments for Generating Image Descriptions》。基本上,第一篇文章看明白了,第二篇就容易了,研究思路其实是一样的。但确实,第二个模型的功能更强大一些,因为可以生成description了。

Deep Fragment Embeddings for Bidirectional Image Sentence Mapping:

这篇论文发表在14年的NIPS上,主要解决的问题集中在retrieval的问题,没有生成description。还是先介绍一下模型吧,以下这张图其实可以完全概括了

输入的数据集每一个样例由一张图片,五个manual句子描述。

对于句子的处理,主要是处理单词之间的关系。类似于上图右边,解析出单词之间的依赖关系,叫做triplet ,R就是关系,而w1,w2就是单词的representation,是1-of-k的,通过以下的关系把triplet映射到一个非线性的空间,

s是h维的向量特征向量,f是一个激活函数,是对应的关系的矩阵,但它是需要学习的参数。是通过训练得到的固定的参数矩阵,至于怎么得到的,我没有看过索引的论文,而源代码读入的数据直接使用了,我就没有仔细研究。激活函数论文里使用了ReLU,而公开的源代码里提供了很多其他类型的函数,然而并没有试跑过。那为什么需要激活函数呢?我猜想大概是(未探究过正确与否)非线性的特征会有更好的拟合效果吧,联想到了深度学习里的激活函数。

对于图片的处理。使用RCNN,提取top 19个Region和一张全图作为特征。这里主要是提取最后一层的4096维的向量作为特征表示,经过以下式子映射到h维的特征空间中。RCNN网络结构可以进行微调,也可以不微调。在这里,需要学习的参数是

计算Image Fragment 和 sentence Fragment的相似度主要对两个特征向量进行内积运算。这就很粗暴了。这样计算相似度,看起来似乎不太妥当,因为每一个图片Region的向量貌似并不能找到一个标准,至少相似度作为一种距离,这里好像并没有单位吧。但是,假如认为v和s在同一个特征空间的话,那么,一切都很顺其自然了,因为内积不就是夹角吗?还记得怎么定义希尔伯特空间的吗?

恩,对于两个模态的学习,找到一种方法把他们映射到同一特征空间非常重要。

最后一步就是定义损失函数了,这里加了一个正则化项,我看了代码对正则化怎么搞的理解又加深了,

现在,怎么使得语义上使对应的fragment的变得相似很重要,这自然是通过学习参数了。AK首先用一种简单的方法,定义alignment目标函数为

当两种fragment出现在同一image-sentence pair中时,注意是image-sentence pair,就把y置为1,否则为 -1。是一个normalize项,具体可以看代码怎么实现的。通过这样简单的设置,不就使得当两种fragment出现在同一image-sentence pair中时,相似度朝着大于1的方向发展,否则朝着小于-1的方向发展了吗?因为式子前面有1减去,而且是一个max和0比较的。

但是,两种fragment出现在同一image-sentence pair中不代表他们就是相对应啊。注意,以下相当于提升性能吧,因为即便没有以下的multiple instance learning也是可以有结果的。因为,AK想到了一种方法,通过有约束的不等式求解,目标函数自然还是最小化了,得到

这称为mi-SVM。太厉害了,他是怎么知道有这种方法的呢?限制条件要求参数y至少有一个值为+1。论文中使用了一种启发式求解的方法,毕竟直接优化看起来还是很难的,具体的求解过程是对于y的值设置为,如果没有+1,就把内积最大的对应的y设为+1。

另外定义了一个global目标函数。首先计算整张图片和sentence的相似度,n是一个平滑项

Global目标函数主要与image和sentence对应的相似度作为比较。通过与所在的行和列比较,使得目标函数朝着令匹配的比不匹配的 的方向优化。

最后优化时,使用的求导的链式法则。整个优化的过程使用SGD的方法。总的来说,是参数的学习使得两种模态的信息可以对应起来。

实验评估的方法,实验数据集是随机选出句子与对应的图片。通过计算,并在每一个句子对进行排序,看最匹配图片的 出现在序列的位置,定义一个[email protected],K代表位置,即在位置K以前出现最匹配图片的百分比,通过对此比较评估Retrieval的性能。

作者Andrej Karpathy的代码,我看的时候自己加了注释,放在这里共享吧,希望对你有点帮助吧。http://pan.baidu.com/s/1i5M8xk5

Deep Visual-Semantic Alignments for Generating Image Descriptions:

这篇论文相对于上一篇Deep Fragment Embeddings for Bidirectional Image Sentence Mapping,是可以生成description了,而且retrieval也得到了提升。这里,句子中提取的不再是dependency,而是首先对于每一个单词都生成一个特征向量,这是通过双向的RNN(BRNN)生成的,因为RNN它其实包含了上下文的信息,所以认为是与整个句子的语义相关。是1-of-k的向量。RNN的函数如下

对于图片,依然使用的是RCNN的模型。而且,对于image和sentence对应的相似度计算方法也有所改变,,整个模型变成如下

以上模型通过训练之后,学习到的只是word与image的region的对应关系,这可能会使得邻近的单词(它们可能相关)被对应到不同的label中。这里作者通过使用马尔科夫随机场来输出最佳的每个word对应的region的序列。马尔科夫随机场对应的势函数为。而是能量函数,注意前面是负值,要使得最后序列的概率最大,则能量函数应该尽量小。所以,这里定义的能量函数的条件为,使用的是链式条件随机场的形式

对于后面一项,当两个前后的word分配同一个标注的时候,希望能量函数为0(即尽量小),否则为。但是对于第一项……暂时还没想明白,可能认为是固有的属性,所以直接加入。当越大,意味着如果希望能量函数越小,分配到同一个box的连续的word会趋向于更多。

以上其实解决的是latent alignment的问题。

之后,通过使用generator的RNN的生成captioning,这个比较容易理解,模型为

具体的计算过程为

其中输入的单词是,而不是。其实这里我的疑问是,不输入第一部分生成correspondence的意义在哪里呢?仅仅是为了alignment?感觉挺奇怪的……

时间: 2024-10-13 16:03:47

【CV论文阅读】Image Captioning 总结的相关文章

【CV论文阅读】+【搬运工】LocNet: Improving Localization Accuracy for Object Detection + A Theoretical analysis of feature pooling in Visual Recognition

论文的关注点在于如何提高bounding box的定位,使用的是概率的预测形式,模型的基础是region proposal.论文提出一个locNet的深度网络,不在依赖于回归方程.论文中提到locnet可以很容易与现有的detection系统结合,但我困惑的是(1)它们的训练的方法,这点论文中没有明确的提到,而仅仅说用迭代的方法进行(2)到底两者的融合后两个网络的结构是怎样呢?可以看做一个多任务的系统,还是存在两个网络呢? 检测方法 输入的候选bounding box(使用selective s

【CV论文阅读】Deep Linear Discriminative Analysis, ICLR, 2016

DeepLDA 并不是把LDA模型整合到了Deep Network,而是利用LDA来指导模型的训练.从实验结果来看,使用DeepLDA模型最后投影的特征也是很discriminative 的,但是很遗憾没有看到论文是否验证了topmost 的hidden representation 是否也和softmax指导产生的representation一样的discriminative. DeepLDA和一般的deep network唯一不同是它的loss function.两者对比如下: 对于LDA,

【CV论文阅读】 Fast RCNN

Fast RCNN的结构: 先从这幅图解释FAST RCNN的结构.首先,FAST RCNN的输入是包含两部分,image以及region proposal(在论文中叫做region of interest,ROI).Image经过深度网络(deep network)之后得到feature map,然后可以从feature map中找到ROI在其中的投射projection得到每个patch,但论文没有提及怎么在map中寻找对应的patch,估计可以通过位置关系找到(猜想,因为deep Conv

【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios

论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过

【CV论文阅读】Going deeper with convolutions(GoogLeNet)

目的: 提升深度神经网络的性能. 一般方法带来的问题: 增加网络的深度与宽度. 带来两个问题: (1)参数增加,数据不足的情况容易导致过拟合 (2)计算资源要求高,而且在训练过程中会使得很多参数趋向于0,浪费计算资源. 解决方法: 使用稀疏连接替代稠密结构. 理论依据(Arora):一个概率分布可以用一个大的稀疏的深度神经网络表示,最优的结构的构建通过分析上层的激活状态的统计相关性,并把输出高度相关的神经元聚合.这与生物学中Hebbian法则“有些神经元响应基本一致,即同时兴奋或抑制”一致. 存

【CV论文阅读】Dynamic image networks for action recognition

论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了.如下图可以看到一些参数向量d pooling的样例 参数向量d的快速计算 把计算d的过程定义一个函数.一个近似

【CV论文阅读】Detecting events and key actors in multi-person videos

论文主要介绍一种多人协作的视频事件识别的方法,使用attention模型+RNN网络,最近粗浅地学习了RNN网络,它比较适合用于处理序列的存在上下文作用的数据. NCAA Basketball数据集 这个数据集是作者新构建的,一个事件4秒长度,在论文中共需识别11个事件.而且从训练集子集通过标注人物的bounding box学习了一个multibox detector,来识别所有帧中的人物bounding box. RNN模型 论文使用了RNN模型中的LSTM来处理帧序列.网络的结构如下图,其中

【CV论文阅读】YOLO:Unified, Real-Time Object Detection

YOLO的一大特点就是快,在处理上可以达到完全的实时.原因在于它整个检测方法非常的简洁,使用回归的方法,直接在原图上进行目标检测与定位. 多任务检测: 网络把目标检测与定位统一到一个深度网络中,而且可以同时在原图上检测多个物体.步骤总结如下: (1)把图片分割成S*S个方格,假如某个物体的中点落在其中一个方格,那么这个方格就对这个物体负责.这里说的物体的中点应该是指ground truth box中的物体的中心. (2)对于每个格子,预测B个bounding box以及相应的confidence

【CV论文阅读】An elegant solution for subspace learning

Pre: It is MY first time to see quite elegant a solution to seek a subspace for a group of local features. I list two related papers for your reference: "Local Feature Discriminant Projection" and "Binary Set Embedding for Cross-Modal Retri