VLAD特征(vector of locally aggregated descriptors)

《Aggregating local descriptors into a compact image representation》论文笔记

这篇论文中提出了一种新的图片表示方法,也就是VLAD特征,并把它用于大规模图片检索中,得到了很好的实验结果。

目前,BOF在图片检索和分类中应用广泛,首先是因为BOF是基于比较powerful的local特征(如SIFT)得来的,所以表达能力很强;其次是因为计算BOF过程中用到的kmeans也是根据样本在样本空间的距离来聚类的,所以,BOF也可以输入SVM这类基于样本间隔的分类器得到较好的效果。但是在数据量很大的情况下,由于vocabulary大小的限制,BOF的特征表达会越来越粗略,特征信息损失较多,使得搜索精度降低。

这篇论文在大数据量的图片搜索问题上,做了3方面的优化:

1,优化特征表示方法,使用VLAD特征;

2,对降维方法(PCA)做改进

3,对索引方法(ADC)做改进

论文的主要贡献有2个:

1,基于BOF和Fisher vector这这两种聚合local特征的方法提出了VLAD特征;

(

BOF详细内容见:http://blog.csdn.net/happyer88/article/details/45769413

Fisher vector详细内容见:http://blog.csdn.net/happyer88/article/details/46576379

)

2,对降维方法和索引方法做优化,而这两个优化是trade-off的,也就是此消彼长的关系,所以,论文中通过大量实验得到一个平衡值。

VLAD: vector of locally aggregated descriptors

要在大数据量的图片中搜索图像,对图片集中的每幅图片,首先是要提取VLAD特征,把每幅图片表示成一个VLAD向量v:

vi,j=∑xsuchthatNN(x)=cixj?ci,j.

其中,x是该幅图像的特征点(如SIFT),ci是该幅图像的loc点(如SIFT)做kmeans得到的聚类中心,有k个,NN(x)是离x最近的聚类中心。

可以看出,实际上vi,j是以ci为聚类中心的聚类中的特征点x的每一维的值,和聚类中心ci的每一维的值,的差,的和。

x维度为d,则i=1…k,j=1…d,那么v就是D维,D=k*d.

如下图中,是对每幅图像的SIFT特征点聚合得到VLAD特征,所以VLAD的维度是16*128,可以表示成16个4*4 grid形式:

每一个小方框对应一个聚类中心,方框中是4*4*8个值,是这个聚类中的x和聚类中心的每一维的差,8个方向上线段的长度对应差值的大小。可以看出,这些VLAD是sparse的(因为大部分差值是一个圆点,接近0),并且very structured,这里的structured意思是,大值常常在同一个cluster中,也就是同一个方框中,比如第一列的前几个方框里,线段都比较长,论文中使用PCA对VLAD特征降维正是基于这一特性。



VLAD可以理解为是BOF和fisher vector的折中

BOF是把特征点做kmeans聚类,然后用离特征点最近的一个聚类中心去代替该特征点,损失较多信息;

Fisher vector是对特征点用GMM建模,GMM实际上也是一种聚类,只不过它是考虑了特征点到每个聚类中心的距离,也就是用所有聚类中心的线性组合去表示该特征点,在GMM建模的过程中也有损失信息;

VLAD像BOF那样,只考虑离特征点最近的聚类中心,VLAD保存了每个特征点到离它最近的聚类中心的距离;

像Fisher vector那样,VLAD考虑了特征点的每一维的值,对图像局部信息有更细致的刻画;

而且VLAD特征没有损失信息。

在论文的experiment部分,可以看到在论文设计的image search实验中,VLAD特征的实验效果要比Fisher vector和BOF好。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-06 19:43:49

VLAD特征(vector of locally aggregated descriptors)的相关文章

Bag of Features (BOF)图像检索算法

1.首先,我们用surf算法生成图像库中每幅图的特征点及描述符. 2.再用k-means算法对图像库中的特征点进行训练,生成类心. 3.生成每幅图像的BOF,具体方法为:判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF. 4.通过tf-idf对频数表加上权重,生成最终的bof.(因为每个类心对图像的影响不同.比如超市里条形码中的第一位总是6,它对辨别产品毫无作用,因此权重要减小). 5.对query进来的图像也进行3.4步操作,生成一列query图的

Aggregating local features for Image Retrieval

Josef和Andrew在2003年的ICCV上发表的论文[10]中,将文档检索的方法借鉴到了视频中的对象检测中.他们首先将图像的特征描述类比成单词,并建立了基于SIFT特征的vusual word dictionary,结合停止词.TF-IDF和余弦相似度等思想检索包含相同对象的图像帧,最后基于局部特征的匹配和空间一致性完成了对象的匹配.文档检索与计算机视觉之间渊源颇深,在CV领域常常会遇到要将图像的多个局部特征描述融合为一条特征向量的问题,比如常用的BoVW.VLAD和Fisher Vect

场景分类(scene classification) 摘录

Low-level : - SIFT : It describes a patch by the histograms of gradients computed over a 4 × 4 spatial grid. Thegradients are then quantized into eight bins so the final feature vector has a dimension of 128 (4×4×8).- LBP : Some works adopt LBP to ex

Video Pooling

Video pooling computes video representation over the whole video by pooling all the descriptors from all the frames in a video. 在基于多个独立帧和局部时间描述子的视频表示中,常常需要把视频的所有帧的描述子进行pooling来表示整个视频. Video Pooling的idea是encoding局部描述子,实现的手段是:使用Fisher向量,或者VLAD(Locally

计算Fisher vector和VLAD

This short tutorial shows how to compute Fisher vector and VLAD encodings with VLFeat MATLAB interface. These encoding serve a similar purposes: summarizing in a vectorial statistic a number of local feature descriptors (e.g. SIFT). Similarly to bag

图像检索——VLAD

今天主要回顾一下关于图像检索中VLAD(Vector of Aggragate Locally Descriptor)算法,免得时间一长都忘记了.关于源码有时间就整理整理. 一.简介 虽然现在深度学习已经基本统一了图像识别与分类这个江湖,但是我觉得在某些小型数据库上或者小型的算法上常规的如BoW,FV,VLAD,T-Embedding等还是有一定用处的,如果专门做图像检索的不知道这些常规算法也免得有点贻笑大方了. 如上所说的这些算法都大同小异,一般都是基于局部特征(如SIFT,SURF)等进行特

Fisher vector fundamentals

文章<Fisher Kernels on Visual Vocabularies for Image Categorization>中提到: Pattern classication techniques can be divided into the classes ofgenerative approaches anddiscriminative approaches. While the first class focuses onthe modeling of class-condit

【OpenCV入门教程之十七】OpenCV重映射 &amp; SURF特征点检测合辑

本系列文章由@浅墨_毛星云 出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/30974513 作者:毛星云(浅墨)    微博:http://weibo.com/u/1723155442 知乎:http://www.zhihu.com/people/mao-xing-yun 邮箱: [email protected] 写作当前博文时配套使用的OpenCV版本: 2.4.9 本篇文章中,我们一起探讨了OpenCV中

【OpenCV新手教程之十七】OpenCV重映射 &amp;amp; SURF特征点检測合辑

本系列文章由@浅墨_毛星云 出品.转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/30974513 作者:毛星云(浅墨)    微博:http://weibo.com/u/1723155442 知乎:http://www.zhihu.com/people/mao-xing-yun 邮箱: [email protected] 写作当前博文时配套使用的OpenCV版本号: 2.4.9 本篇文章中,我们一起探讨了OpenCV