基于randomized visual phrase的目标检索

这个算法是用于目标检索的比较快速的一个算法,参考Randomized Visual Phrases for Object Search。

算法的流程如下:

//图片训练阶段

1读入N张图片

2 转换成灰度图

3 检测N张图片的特征点,本算法中应用的是SIFT特征。

4 生成描述子

5 描述子聚类,生成visual word,用kmeans()算法完成。

6 将图片库中的图片用另一种方式进行描述

将每个图片中所有的特征点用[ x,y,v ]表示。其中,x,y是每个特征点的坐标,v代表这个特征点对应的visualword的编号。

7 生成invert file

8 stop list算法

统计倒排文件中,对某一个word,包含这个word的图片的个数,对高频出现的word删去,这个步骤对于提高检索的正确率有很大帮助。

//目标搜索阶段

9 读入目标图片

10 转换成灰度图

11 提取特征点,生成描述子

12 生成目标的visual phrase

介绍一下什么是visual pharse,即是将目标图片中出现的所有特征点,用visual word词汇表中与之最接近的word进行代替,然后计算所有的word的出现的次数。本文算法中,是根据目标特征点的描述子向量与每个visual word的欧氏距离来进行匹配的。这种方法的速度比较慢,也有一些快速的匹配算法,目前正在研读中,以后会更新。

13 检索含有目标有图片

根据倒排文件中,检索与目标最相近的图片。通过计算目标图片的visual phrase矢量与图片的visual phrase矢量的直方图相交(HI或者NHI),找到与目标最匹配的图片。

14 对找到的图片,随机划分

把图片,随机的划分成一块一块的矩形方块,划分T次,每次划分是不重叠的。每次划分的方块的行数与列数是相同的,均为M*N。本文的算法中,可能通过调整T的大小 ,调整检索速度与调整精度。如果T的选择的比较大,那么它的精度比较大,速度比较慢。如果T选择的比较小,那么它的定位精度比较小,速度比较快。

15 计算每个随机方块的visual phrase

16 计算每个随机网格与目标的匹配程度

计算每个网格的visual phrase与目标的visualphrase之间的HI距离,这个距离越大,代表目标与这个网格中的内容越匹配。

17 投票

经过T次随机划分,会产生M*N*T个随机图片块,并且每个块与目标之间,都计算出了一个距离,把这个距离当成这个块的得分。然后每一个块,把这个得分投给它包含的每一个像素上。这样就会得到一个投票图,图片得分最高的部分,代表与目标接近的程度最高。

18 寻找投影图中,值最大的点A。

19 通过投影的像素值的大小,在A的周围,确定一个矩阵区域。认为这个矩形区域就是目标在原图中的位置。

20 显示这个矩形区域。

实验结果如下:

待检索目标

检索结果。

本文为CSDN博客,更多内容请点:http://write.blog.csdn.net/postlist/2867665/all

时间: 2024-08-29 22:57:23

基于randomized visual phrase的目标检索的相关文章

转:基于内容的视频分析与检索

摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作. 一.问题的提出: 互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆.数字博物馆.数字电影.可视电话.交互电视.会议电视

[转载]基于模糊Choquet积分的目标检测算法

前言: 原文地址为:http://www.cnblogs.com/pangblog/p/3303956.html 正文: 本文根据论文:Fuzzy Integral for Moving Object Detection-FUZZ-IEEE_2008的内容及自己的理解而成,如果想了解更多细节,请参考原文.在背景建模中,我们对于像素的分类总是采用非此即彼的方式来分,即该像素要么是背景要么是前景.然而,由于噪声.光照变化以及阴影等特殊情况导致像素会存在错误,即像素存在一定的不确定性.为了处理这种不确

基于本体的地学数据语义检索(简介)

硕士期间做了基于本体的地学数据语义检索方面的工作,首先是传统的全文检索查询600Ma(Ma表示百万年,这里都是指百万年前): 然后是基于本体的语义检索查询结果:(600Ma处于震旦纪.下震旦世.元古宙等地质年代时间内) 具体方法会在论文中论述,此处省略4万字...(请不要打脸)

图像检索(5):基于OpenCV实现小型的图像数据库检索

本文对前面的几篇文章进行个总结,实现一个小型的图像检索应用. 一个小型的图像检索应用可以分为两部分: train,构建图像集的特征数据库. retrieval,检索,给定图像,从图像库中返回最类似的图像 构建图像数据库的过程如下: 生成图像集的视觉词汇表(Vocabulary) 提取图像集所有图像的sift特征 对得到的sifte特征集合进行聚类,聚类中心就是Vocabulary 对图像集中的图像重新编码表示,可使用BoW或者VLAD,这里选择VLAD. 将图像集中所有图像的VLAD表示组合到一

tflearn kears GAN官方demo代码——本质上GAN是先训练判别模型让你能够识别噪声,然后生成模型基于噪声生成数据,目标是让判别模型出错。GAN的过程就是训练这个生成模型参数!!!

GAN:通过 将 样本 特征 化 以后, 告诉 模型 哪些 样本 是 黑 哪些 是 白, 模型 通过 训练 后, 理解 了 黑白 样本 的 区别, 再输入 测试 样本 时, 模型 就可以 根据 以往 的 经验 判断 是 黑 还是 白. 与 这些 分类 的 算法 不同, GAN 的 基本 原理 是, 有两 个 相生相克 的 模型 Generator 和 Discriminator,Generator 随机 生成 样本, Discriminator 将 真实 样本 标记 为 Real, 将 Gene

论文笔记:目标追踪-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

基于自适应颜色属性的目标追踪 Adaptive Color Attributes for Real-Time Visual Tracking 基于自适应颜色属性的实时视觉追踪 3月讲的第一篇论文,个人理解,存在非常多问题,欢迎交流! 这是CVPR2014年的文章. 名字翻译为基于自适应选择颜色属性的实时视觉跟踪.首先理解什么是Adaptive color attributes,文章中colorattributes把颜色分为11类,就是将RGB三种颜色细化为黑.蓝.棕.灰.绿.橙.粉.紫.红.白和

互联网相似图像识别检索引擎 —— 基于图像签名的方式

源地址:http://grunt1223.iteye.com/blog/828192 一.引言 多媒体识别是信息检索中难度较高且需求日益旺盛的一个问题.以图像为例,按照图像检索中使用的信息区分,图像可以分为两类:基于文本的图像检索和基于内容识别的图像检索(CBIR:Content Based Image Retrieval).基于文本的图像检索完全不分析和利用图像本身的内容,其检索质量完全依赖于与图像关联的文字信息与图像内容的相关性,因此有必要引入基于内容的图像检索.本为主要讨论后者. 在计算机

4. 基于深度学习的目标检测算法的综述(转)

4. 基于深度学习的目标检测算法的综述(转) 原文链接:https://www.cnblogs.com/zyly/p/9250195.html 目录 一 相关研究 1.选择性搜索(Selective Search) 2.OverFeat 二.基于区域提名的方法 1.R-CNN 2.SPP-Net 3.Fast R-CNN 4.Faster R-CNN 5.R-FCN 三 端对端的方法 1.YOLO 2.SSD 四 总结 在前面几节中,我们已经介绍了什么是目标检测,以及如何进行目标检测,还提及了滑

[转] 基于DirectUI的SC设计规划的个人构想与目标

原文:http://my.oschina.net/isixth/blog/385092 SC设计的目标: SC是一个简单的基于DirectUI的界面库.设计SC,主要是基于个人爱好与学习的目的.在本人学习C++的这几个月来,将一点点收获与理解.想通过设计SC来进行提升与巩固.是一个重复造轮子的过程,也是一个个人学习提高的过程. 在学习C++的同时,也感到用C++做开发,界面设计,是一个基础且必须要做的事.优秀.成熟且系统性的有QT等,开源的更是不少,但学习与了解别人的代码,看是一个基础,自己写,