图像检索算法

图像检索:是从一堆图片中找到与待匹配的图像相似的图片,就是以图找图。

看了两篇文章:

Large-Scale Image Retrieval with Attentive Deep Local Features   https://arxiv.org/pdf/1612.06321v4.pdf

Aggregated Deep Local Features for Remote SensingImage Retrieval  https://arxiv.org/pdf/1903.09469.pdf

这两片都是讲了用使用注意力机制提取CNN局部特征描述子,进行图像检索的方法。第一篇是原创,第二篇是将其应用到遥感图像检索。

图片检索可以分为两个问题: 第一图像级别的描述子的建立,第二搜索匹配的描述子。这两篇文章主要关注,第一个问题,第二个问题没有深入。

论文一:

作者先是说了以往的研究都是在小尺度数据集上的得到的。作者的提出了一种基于CNN的特征描述子,用于大规模数据检索。

这篇文章的特点就是:使用注意力机制帮助获取特征点,用特征点相应位置卷积层的通道方向的特征,作为该特征点的描述子。

1、使用了一种弱监督学习方法,只有图像级的标签用于训练;

2、加入了一个注意力模型,使用注意力机制,找到局部关键点,将该点的cnn通道方向的特征作为描述子

作者制作了个大型(large scale)数据集,然后建立检索系统:1. 密集局部特征提取 2. 关键点选择 3. 降维 4. 索引和检索

1.密集局部特征提取

使用了Resnet50的预训练模型,去掉头,换上自己的头,微调。把conv4的输出作为特征,conv4里每个像素在原图像的视场的位置就是特征点的位置。

这一步比较常规,现在普遍认为卷积层就是起特征提取的feature extractor。

这样卷积层是特征,从这么多的位置里选择出代表性的特征。作者比较新的提出了以下的关键点选择方法:

2. 基于注意力机制的关键点选择

如果直接使用cnn层作为特征直接进行匹配的话,描述子的维度太高,检索太慢。因此有必要,从特征图里选择出来一些关键点。

在普通的匹配里有一些:sift,surf,FAST,Brief等特征点和描述子。

CNN已经提取好特征了,我们需要在特征图上选择出一些。

这时候作者把训练好的网络参数固定,新建一个2层的卷积网络,这个两层的网络的输入就是conv4的输出,输出就是和conv4大小相同的1通道的权重图,这个权重图里就是每个conv4特征的权重。

注意力就关注到这地方了。

这里的训练分两步,不能同时训练,先训练1,训练完了再训练2中的注意力模型。

这个和普通的方法区别是:他是先计算特征描述子,再选择特征点

特征点选择多少个论文没有说,好奇,只能看代码了。

3.降维

因为没有说,一副图像选择多少个特征点。

只是说把这些特征点对应的conv4的通道数构成的描述子,先L2归一化,再用PCA降维到40维,降完之后再归一化

4. 索引和检索

基于最近邻的搜索技术,kd-tree,PQ.

当然基于距离最小的方法全部招呼上来。

实验部分:

这部分说了前面的疑问,每个图像提取1000个关键点(根据注意力机制里概率的大小),每个特征点40维。使用k最近邻匹配 k=60。

怎么匹配的呢,对1000个关键点,每个进行匹配,选择前60个最匹配的,60个匹配结果里统计类别分布,选择最高的,就是这个关键点对应的图像。

至于1000个关键点怎么弄一个个弄?还是每个集成起来?

对比方法:

Deep Image Retrieval(DIR)  全局2048维的描述子,也就是说一副图像一个描述子维度是2048维。使用QE 最近邻.

QE 方法见:http://yongyuan.name/blog/cbir-query-expansion.html

算是最近邻方法的一个小技巧。

siaMac 与上方法类似,也是一种全局描述子512维度,使用的是VGG处理过的。

LIFT 这个比较有意思的是用SIFT产生的特征点特征向量,监督CNN学习的的结果,然后取代 SIFT (众所周知SIFT速度慢,不知道CNN学习后速度快了没有,没看原论文)

论文2:

这篇论文的选题好,关注遥感图像。 遥感图像有个好处就是拍摄的角度高,基本处于90%。遥感图像自带分辨率,尺度因素不用考虑(这些强的先验知识,可以极大的减轻网络负担和匹配负担)

所以改了改,用到遥感数据上效果就遥感图像最优了(state-of-the-art)

这篇论文思路清晰,过程说的明白,就是网络使用的是论文1的网络,刚开始不明白,所以反过去看了论文1。

开篇就点题了:基于内容的图像检索主要包括两个步骤:

图像的描述特征提取,图像匹配

明天继续。。

觉得有用,拿出手机领个红包,收你1毛1。

每天看一论文。

日有所勤,业有所精

原文地址:https://www.cnblogs.com/yjphhw/p/10596371.html

时间: 2024-10-16 05:38:32

图像检索算法的相关文章

基于HSV分块颜色直方图的图像检索算法

引 言 随着多媒体技术及[nternet技术的迅速发展,各行各业对图像的使用越来越广泛,图像信息资源的管理和检索显得越来越重要.传统的通过手工标记和索引图像(即基于文本的图像检索)的方法已经不能满足人们的需求,随之而来的问题是:随着图像数据的剧增和人们对图像的理解具有不同的侧重点,不同的人从不同的角度对同一幅图像的认识可能存在很大的差异性,因此无法准确反映图像信息.基于内容的图像检索方法(Content-Based Image Retrieval,CBIR)由此应运而生. 在基于内容的图像检索中

实习日记:图像检索算法 LSH 的总结与分析

先贴上这两天刚出炉的C++代码.(利用 STL 偷了不少功夫,代码尚待优化) Head.h 1 #ifndef HEAD_H 2 #define HEAD_H 3 4 #include "D:\\LiYangGuang\\VSPRO\\MYLSH\\HashTable.h" 5 6 7 #include <iostream> 8 #include <fstream> 9 #include <time.h> 10 #include <cstdli

实习日记:图像检索算法 LSH 的总结与分析(matlab)

最开始仿真和精度测试,基于 matlab 完成的. Demo_MakeTable.m (生成 Hash 表) %======================================== %*********************************** %******* 设定参数: ***************** %******* l : hash表个数 ******** %******* k : 各表关键字个数 ******* %=======================

Bag of Features (BOF)图像检索算法

1.首先,我们用surf算法生成图像库中每幅图的特征点及描述符. 2.再用k-means算法对图像库中的特征点进行训练,生成类心. 3.生成每幅图像的BOF,具体方法为:判断图像的每个特征点与哪个类心最近,最近则放入该类心,最后将生成一列频数表,即初步的无权BOF. 4.通过tf-idf对频数表加上权重,生成最终的bof.(因为每个类心对图像的影响不同.比如超市里条形码中的第一位总是6,它对辨别产品毫无作用,因此权重要减小). 5.对query进来的图像也进行3.4步操作,生成一列query图的

LIRe提供的图像检索算法的速度

在LIRe中主要实现的图像特征有:        1.       RGB和HSV空间的颜色直方图:        2.       MPEG-7的颜色特征,包括Scalable color,Color layout和Edge Histogram:        3.       Tamura纹理特征,包括粗糙度(Coarseness),对比度(Contrast)和方向度(Directionality):        4.       颜色和边缘的方向性描述符(Color and edge d

图像检索:基于形状特征的算法

本文节选自<基于形状特征的图像检索算法研究> 基于形状特征的图像检索算法相对于颜色特征和纹理特征来说,使用的稍微少一些.摘录了其中的几种算法,不做深入剖析了. 形状通常与图像中的特定目标对象有关,是人们的视觉系统对目标的最初认识,有一定的语义信息,被认为是比颜色特征和纹理特征更高一层的特征.形状描述的准确与否是决定图像检索算法优劣的重要因素,一个好的形状描述符应具备独特性.完备性.几何不变性.灵活性以及抽象性.形状的描述符大体可以分为两大类:第一类是描述形状目标区域边界轮廓的像素集合,称为基于

行为识别笔记:improved dense trajectories算法(iDT算法)(转载)

iDT算法是行为识别领域中非常经典的一种算法,在深度学习应用于该领域前也是效果最好的算法.由INRIA的IEAR实验室于2013年发表于ICCV.目前基于深度学习的行为识别算法效果已经超过了iDT算法,但与iDT的结果做ensemble总还是能获得一些提升.所以这几年好多论文的最优效果都是"Our method+iDT"的形式. 此前由于项目原因,对iDT算法进行了很多研究和实验,故此处对其核心思路与一些实施的细节进行总结,方便后续回顾,也希望能够在此过程中获得一些新的启发. 介绍的内

其它算法目录

1. 实习日记:图像检索算法 LSH 的总结与分析(matlab) 2. 实习日记:图像检索算法 LSH 的总结与分析

应用笔画宽度变换(SWT)来检测自然场景中的文本

Introduction: 应用背景:是盲人辅助系统,城市环境中的机器导航等计算机视觉系统应用的重要一步.获取文本能够为许多视觉任务提供上下文的线索,并且,图像检索算法的性能很大部分都依赖于对应的文本检测模块. 意义:传统的OCR应用于扫描文本,所以其依赖于把文本从背景像素中正确分离.这对于扫描文本来说是很简单的,但是自然图像由于存在色彩噪声,模糊,遮挡,很难将文本从背景中分离. 文章提出的方法:文本有着固定的笔画宽度,利用这一特性就够从背景中将其恢复.首先求图像的笔画宽度变换即每个像素都分配了